Что понимается под точечным и интервальным прогнозом. Программирование в эконометрике. Множественный регрессионный анализ

Перейдем к вопросу о сглаживании временных рядов экономических показателей. Очень часто уровни рядов динамики колеблются, при этом тенденция развития экономического явления во времени скрыта случайными отклонениями уровней в ту или иную сторону. С целью четко выявить тенденцию развития исследуемого процесса, в том числе для дальнейшего применения методов прогнозирования на основе трендовых моделей, производят сглаживание (выравнивание) временных рядов. Таким образом, сглаживание можно рассматривать как устранение случайной составляющей t из модели временного ряда.

Самым простым методом механического сглаживания является метод простой скользящей средней. Сначала для временного ряда y 1 , y 2 , y 3 ,…, y n определяется интервал сглаживания т (т < п). Если необходимо сгладить мелкие беспорядочные колебания, то интервал сглаживания берут по возможности большим; интервал сглаживания уменьшают, если нужно сохранить более мелкие колебания. При прочих равных условиях интервал сглаживания рекомендуется брать нечетным. Для первых т уровней временного ряда вычисляется их средняя арифметическая; это будет сглаженное значение уровня ряда, находящегося в середине интервала сглаживания. Затем интервал сглаживания сдвигается на один уровень вправо, повторяется вычисление средней арифметической и т.д.

Для вычисления сглаженных уровней ряда применяется формула

при нечетном m ;

для четных т формула усложняется.

В результате такой процедуры получаются п - т + 1 сглаженных значений уровней ряда; при этом первые р и последние р уровней ряда теряются (не сглаживаются).

Особенность метода экспоненциального сглаживания заключается в том, что в процедуре нахождения сглаживания i -го уровня используются значения только предшествующих уровней ряда (i -1, i -2,…), взятые с определенным весом, причем вес наблюдения уменьшается по мере удаления его от момента времени, для которого определяется сглаженное значение уровня ряда.

Если для исходного временного ряда y 1 , y 2 , y 3 ,…, y n соответствующие сглаженные значения уровней обозначить через S t , t = 1,2, …, п, то экспоненциальное сглаживание осуществляется по формуле

здесь S 0 – величина, характеризующая начальные условия.

В практических задачах обработки экономических временных рядов рекомендуется выбирать величину параметра сглаживания в интервале от 0,1 до 0,3.

Пример 4.4. Вернемся к примеру 1, в котором рассматриваются квартальные объемы продаж компании «Lewplan». Мы уже выяснили, что этим данным отвечает аддитивная модель, т.е. фактически объемы продаж можно выразить следующим образом:

Y = U + V + E.

Для того чтобы элиминировать влияние сезонной компоненты, воспользуемся методом скользящей средней. Просуммировав первые четыре значения, получим общий объем продаж в 1998 г. Если поделить эту сумму на четыре, можно найти средний балл продаж в каждом квартале 1998 г., т.е.

(239 + 201 +182 + 297)/4 = 229,75;
(201+182+297+324)/4 и т. д.

Полученное значение уже не содержит сезонной компоненты, поскольку представляет собой среднюю величину за год. У нас появилась оценка значения тренда для середины года, т.е. для точки, лежащей в середине между кварталами II и III. Если последовательно передвигаться вперед с интервалом в три месяца, можно рассчитать средние квартальные значения на промежутке апрель – март 1998 (251), июль – июнь 1998 (270,25) и т.д. Данная процедура позволяет генерировать скользящие средние по четырем точкам для исходного множества данных. Получаемое таким образом множество скользящих средних представляет наилучшую оценку искомого тренда.

Теперь полученные значения тренда можно использовать для нахождения оценок сезонной компоненты. Мы рассчитываем:

Y U = V + E .

К сожалению, оценки значений тренда, полученные в результате расчета средних по четырем точкам, относятся к нескольким иным моментам времени, чем фактические данные. Первая оценка, равная 229,75, представляет собой точку, совпадающую с серединой 1998 г., т.е. лежит в центре промежутка фактических значений объемов продаж во II и III кварталах. Вторая оценка, равная 251, лежит между фактическими значениями в III и IV кварталах. Нам же требуются десезонализированные средние значения, соответствующие тем же интервалам времени, что и фактические значения за квартал. Положение десезонализированных средних во времени сдвигается путем дальнейшего расчета средних для каждой пары значений. Найдем среднюю из первой оценок, центрируя их на июль – сентябрь 1998 г., т.е.

(229,75 + 251)/2 = 240,4.

Это и есть десезонализированная средняя за июль – сентябрь 1999 г. Эту десезонализированную величину, которая называется центрированной скользящей средней , можно непосредственно сравнивать с фактическим значением за июль – сентябрь 1998 г., равным 182. Отметим, что это означает отсутствие оценок тренда за первые два или последние два квартала временного ряда. Результаты этих расчетов приведены в табл.4.5.

Для каждого квартала мы имеем оценки сезонной компоненты, которые включают в себя ошибку или остаток. Прежде чем мы сможем использовать сезонную компоненту, нужно пройти два следующих этапа. Найдем средние значения сезонных оценок для каждого сезона года. Эта процедура позволит уменьшить некоторые значения ошибок. Наконец, скорректируем средние значения, увеличивая или уменьшая их на одно и тоже число таким образом, чтобы общая их сумма была равна нулю. Это необходимо, чтобы усреднить значения сезонной компоненты в целом за год.

Таблица 4.5. Оценка сезонной компоненты

Объем продаж Y , тыс. шт.

за четыре

квартала

Скользящая

средняя за четыре

квартала

Центрированная скользящая средняя U

сезонной компоненты

Y - U = V + E

Январь-март 1998

Апрель-июнь

Июль-сентябрь

Октябрь-декабрь

Январь-март 1999

Апрель-июнь

Июль-сентябрь

Октябрь-декабрь

Январь-март 2000

Апрель-июнь

Июль-сентябрь

Октябрь-декабрь

Январь-март 2001

Таблица 4.6. Расчет средних значений сезонной компоненты

Рассчитываемые

компоненты

Номер квартала

Среднее значение

Оценка сезонной

компоненты

Сумма = -0,2

Скорректированная

сезонная компонента 1

Корректирующий фактор рассчитывается следующим образом: сумма оценок сезонных компонент делится на 4. В последнем столбце табл. 4.5 эти оценки записаны под соответствующими квартальными значениями. Сама процедура приведена в табл. 4.6.

Значение сезонной компоненты еще раз подтверждает наши выводы, сделанные в примере 4.1 на основе анализа диаграммы. Объемы продаж за два зимних квартала превышают среднее трендовое значение приблизительно на 40 тыс. шт., а объемы продаж за два летних периода ниже средних на 21 и 62 тыс.шт. соответственно.

Аналогичная процедура применима при определении сезонной вариации за любой промежуток времени. Если, например, в качестве сезона выступают дни недели, для элиминирования влияния ежедневной сезонной компоненты также рассчитывают скользящую среднюю, но уже не по четырем, а по семи точкам. Эта скользящая средняя представляет собой значение тренда в середине недели, т.е. в четверг; таким образом, необходимость в процедуре центрирования отпадает.

Очень часто, урони рядов динамики колеблются, при этом тенденция развития явления во времени скрыта случайными отклонениями уровней в ту или иную сторону. С целью более четко выявить тенденцию развития исследуемого процесса, в том числе для дальнейшего применения методов прогнозирования на основе трендовых моделей, производят сглаживание (выравнивание ) временных рядов.

Методы сглаживания временных рядов делятся на две основные группы:

1. аналитическое выравнивание с использованием кривой, проведенной между конкретными уровнями ряда так, чтобы она отображала тенденцию, присущую ряду, и одновременно освобождала его от незначительных колебаний;

2. механическое выравнивание отдельных уровней временного ряда с использованием фактических значений соседних уровней.

Суть методов механического сглаживания заключается в следующем. Берется несколько уровней временного ряда, образующих интервал сглаживания. Для них подбирается полином, степень которого должна быть меньше числа уровней, входящих в интервал сглаживания; с помощью полинома определяются новые, выровненные значения уровней в середине интервала сглаживания. Далее интервал сглаживания сдвигается на один уровень ряда вправо, вычисляется следующее сглаженное значение и так далее.

Самым простым методом механического сглаживания является метод простой скользящей средней.

2.4.1. Метод простой скользящей средней.

Сначала для временного ряда: определяется интервал сглаживания . Если необходимо сгладить мелкие беспорядочные колебания, то интервал сглаживания берут по возможности большим; интервал сглаживания уменьшают, если нужно сохранить более мелкие колебания.

Для первых уровней ряда вычисляется их среднее арифметическое. Это будет сглаженное значение уровня ряда, находящегося в середине интервала сглаживания. Затем интервал сглаживания сдвигается на один уровень вправо, повторяется вычисление среднего арифметического и так далее. Для вычисления сглаженных уровней ряда применяется формула:

где (при нечетном ); для четных формула усложняется.

В результате такой процедуры получаются сглаженных значений уровней ряда; при этом первые и последние уровней ряда теряются (не сглаживаются). Другой недостаток метода в том, что он применим лишь для рядов, имеющих линейную тенденцию.

2.4.2. Метод взвешенной скользящей средней.

Метод взвешенной скользящей средней отличается от предыдущего метода сглаживания тем, что уровни, входящие в интервал сглаживания, суммируются с разными весами. Это связано с тем, что аппроксимация ряда в пределах интервала сглаживания осуществляется с использованием полинома не первой степени, как в предыдущем случае, а степени начиная со второй.

Используется формула средней арифметической взвешенной:

,

причем веса определяются с помощью метода наименьших квадратов. Эти веса рассчитаны для различных степеней аппроксимирующего полинома и различных интервалов сглаживания.

1. для полиномов второго и третьего порядков числовая последовательность весов при интервале сглаживания имеет вид: , а при имеет вид: ;

2. для полиномов четвертой и пятой степеней и при интервале сглаживания последовательность весов выглядит следующим образом: .

Распределение весов на протяжении интервала сглаживания, полученное на основе метода наименьших квадратов см. на диаграмме 1.



2.4.3. Метод экспоненциального сглаживания.

К той же группе методов относится метод экспоненциального сглаживания.

Его особенность заключается в том, что в процедуре нахождения сглаженного уровня используются значения только предшествующих уровней ряда, взятые с определенным весом, причем вес наблюдения уменьшается по мере удаления его от момента времени, для которого определяется сглаженное значение уровня ряда.

Если для исходного временного ряда

соответствующие сглаженные значения обозначить через , то экспоненциальное сглаживание осуществляется по формуле:

где параметр сглаживания ; величина называется коэффициентом дисконтирования.

Используя, приведенное рекуррентное соотношение для всех уровней ряда, начиная с первого и кончая моментом времени , можно получить, что экспоненциальная средняя, то есть сглаженное данным методом значение уровня ряда, является взвешенной средней всех предшествующих уровней.

таблице 4.

Таблица 4.

Для данного ряда:К=8, L=-8.

8 3.703 3,46

Находим теоретические значения характеристики с (n-2) степенями

t 0,95,n 2=2,365,

т.е. с вероятностью

утверждать, что

имеется тенденция в дисперсии (t K t теор ) и имеется тенденция в среднем, так какt L t теор . Следовательно, можно говорить о наличии тренда во временном

Метод средних

5.3. Методы механического сглаживания временного ряда

Очень часто уровни экономических рядов динамики колеблются, при

этом тенденция развития экономического явления во времени скрыта случайными отклонениями уровней в ту или иную сторону. С целью более четкого выявления тенденции развития исследуемого процесса, в том числе для дальнейшего применения методов прогнозирования на основе трендовых

моделей, производят сглаживание (выравнивание) временных рядов.

Сглаживание всегда включает некоторый способ локального усреднения данных, при котором несистематические компоненты взаимно погашают друг друга.

Методы сглаживания временных рядов делятся на две основные группы:

1) механическое выравнивание отдельных уровней временного ряда с

использованием фактических значений соседних уровней.

2) аналитическое выравнивание с использованием кривой, проведенной

между конкретными уровнями ряда так, чтобы она отображала тенденцию, присущую ряду, и одновременно освобождала его от незначительных

колебаний;

Суть методов механического сглаживания заключается в следующем.

Берется несколько первых уровней временного ряда, образующих интервал сглаживания. Для них подбирается полином, степень которого должна быть меньше числа уровней, входящих в интервал сглаживания; с помощью полинома определяются новые, выровненные значения уровней в середине

Метод простой скользящей средней.

Самый простой метод сглаживания - скользящее среднее, в котором

дних членов, где m - ширина интервала сглаживания. Вместо среднего можно использовать медиану значений, попавших в интервал сглаживания.

Если необходимо сгладить мелкие беспорядочные колебания, то интервал сглаживания берут по возможности большим. Если нужно сохранить более мелкие колебания, интервал сглаживания уменьшают. При прочих равных условиях интервал сглаживания рекомендуется брать нечетным.

Для вычисления сглаженных уровней ряда Y t применяется формула:

Где p m 1 (при нечетномт);

В результате такой процедуры получаются (n-m+1 )сглаженных значений уровней ряда; при этом первыер и последниер уровней ряда теряются (не сглаживаются). -

При четных значениях т, после процедуры сглаживания обычно поводят центрирование полученного ряда (находят средние значения двух последовательных скользящих средних).

Данный метод применим применим лишь для рядов, имеющих линейную

тенденцию. Если для процесса характерно нелинейное развитие, то простая скользящая средняя может привести к существенным искажениям.

Когда тренд выравниваемого ряда имеет изгибы и для исследователя желательно сохранить волны, то предпочтительной является взвешенная

скользящая средняя. При построении взвешенной скользящей средней на

каждом интервале сглаживания значение центрального уровня заменяется на расчетное, определяемое по формуле взвешенной средней арифметической:

y tw i

где w i - весовые коэффициенты, определяемы методом наименьших

квадратов, при этом выравнивание на каждом интервале сглаживания осуществляется чаще всего с применением полиномов второго или третьего порядков11 .Например, весовые коэффициенты для интервала 5 будут

следующие: 35 1 [ 3, 12, 17, 12, 3] , а для интервала 7: 21 1 [ 2, 3, 6, 7, 6, 3, 2]

Пример . Задан временной ряд объема выпуска продукции (в тыс. руб). Уровни ряда Y (t ) приведены в таблице 5.

Выберем интервал сглаживания m=3 и проведем сглаживание простой скользящей средней (третья строка таблицы) После сглаживания явно видна возрастающая тенденция.

11 Михтарян В.С., Архипова М.Ю. и др. Эконометрика.: учеб./ под ред. Михтарян В.С. М.: ООО

«Проспект»,2008 , стр. 293

Таблица 5

S(t)ср

S(t)вз

интервал сглаживания

проведем

сглаживание

взвешенной

скользящей средней на основе полинома второй степени

(четвертая

таблицы), используя приведенные

выше весовые

коэффициенты.

Метод экспоненциального сглаживания.

При исследовании экономических данных иногда важным является влияние на процесс более поздних наблюдений. Этот вопрос решает метод

экспоненциального сглаживания. В этом случае текущее значение временного

ряда сглаживается с учетом сглаживающей константы (веса), обычно

обозначаемой. Расчет проводится по следующей формуле:

S t Y t (1) S t 1 , (5.4),

Рассматривая рекуррентный процесс разложения для величин S t 1 ,S t 2 и

т.д. по формуле (5.4), получим:

) j Y t j (1)t Y 0

S t(1

где j – число периодов отставания от моментаt . Согласно формуле (5.5)

относительный вес каждого предшествующего уровня снижается по экспоненте по мере удаления от момента, для которого вычисляется сглаженное значение.

Отсюда и название данного метода.

При практическом использовании метода возникают проблемы выбора параметра и определения начального уровня Y 0 . Чем больше значение

параметра, тем меньше сказывается влияние предшествующих уровней В каждом конкретном случае необходимо выбирать наиболее приемлемое

значение. Чаще всего это делается на основе проверки нескольких значений.

Задачу выбора начального значения Y 0 решают следующим образом: заY 0

принимается первое значение временного ряда или среднее арифметическое

нескольких первых членов ряда.

Рассмотрим предыдущий пример. Проведем экспоненциальное

сглаживание временного ряда (третья строка табли цы)

Первое сглаженное значение равняется первому уровню ряда.. Следующее сглаженное значение рассчитываем согласно формуле (5.3), где

Сглаживание временного ряда

Сглаживание временного ряда, т.е. замена фактических уровней расчетными значениями, имеющими меньшую колеблемость, чем исходные данные, является простым методом выявления тенденции развития. Соответствующее преобразование называется фильтрованием.

Сглаживание временных рядов проводиться в следующих случаях:

· При графическом изображении временного ряда тренд прослеживается недостаточно отчетливо. Поэтому ряд сглаживают, на график наносят сглаженные значения, и, как правило, тенденция проявляется более четко;

· Применяются методы анализа и прогнозирования, требующие в качестве предварительного условия сглаживания временного ряда;

· При устранении аномальных наблюдений;

· При непосредственном прогнозировании экономических показателей и прогнозировании изменение тренда - «точек поворота».

Существующие методы сглаживания делят на две группы:

1) Аналитические методы. Для сглаживания используется кривая, проведенная относительно фактических значений ряда так, чтобы она отображала тенденцию, присущую ряда, и одновременно освобождала его от мелких незначительных колебаний. Такие кривые называют еще кривыми роста, применяются они главным образом для прогнозирования экономических показателей;

2) Методы механического сглаживания. Сглаживается каждый отдельный уровень ряда с использованием фактических значений соседних с ним уровней. Для сглаживания временных рядов часто используются методы простой и взвешенной скользящей средней, экспоненциального сглаживания.

Метод простой скользящей средней включает в себя следующие этапы:

1. Определяется количество наблюдений, входящих в интервал сглаживания. При этом используют правило: если необходимо сгладить мелкие, беспорядочные колебания, то интервал сглаживания берут по возможности большим и, наоборот, интервал сглаживания уменьшают, когда нужно сохранить более мелкие волны и освободиться от периодически повторяющихся колебаний, возникающих, например, из-за автокорреляций уровней.

2. Вычисляется среднее значение наблюдений, образующих интервал сглаживания, которое одновременно является сглаживающим значением уровня, находящегося в центре интервала сглаживания, при условии, что m - нечетное число, по формуле

где m - количество наблюдений, входящих в интервал сглаживания; p - количество наблюдений, стоящих по разные стороны от сглаживаемого.

При нечетном m значение параметра p вычисляют следующим образом:

Первым сглаженным будет наблюдение t, где t = p+1.

3. Интервал сглаживания сдвигается на один член вправо, и по формуле (1) находится сглаженное значение для (t+1) - го наблюдения. Затем снова производят сдвиг и т.д.

Процедура продолжается до тех пор, пока в интервал сглаживания не войдет последнее наблюдение временного ряда.

Метод простой скользящей средней можно использовать, если графическое изображение ряда напоминает прямую линию.

В этом случае не искажается динамика развития исследуемого процесса. Однако когда тренд выравниваемого ряда имеет изгибы и к тому же желательно сохранить мелкие волны, использовать для сглаживания ряда метод простой скользящей средней нецелесообразно, поскольку при этом:

· выравниваются и выпуклые, и вогнутые линии;

· происходит сдвиг волны вдоль ряда;

· изменяется знак волны, т.е. на кривой, соединяющей сглаженные точки, вместо выпуклого участка образуется вогнутый и наоборот. Последнее имеет место в случае, когда интервал сглаживания в полтора раза превышает длину волны.

Таким образом, если развитие процесса носит нелинейный характер, то применение метода простой скользящей средней может привести к значительным искажениям исследуемого процесса.

В таких случаях более надежным является использование других методов сглаживания, например метод взвешенной скользящей средней.

Метод взвешенной скользящей средней отличается от предыдущего тем, что сглаживание внутри интервала производиться не по прямой, а по кривой более высокого порядка. Это обусловлено тем, что суммирование членов ряда, входящих в интервал сглаживания, производиться с определенными весами, рассчитанными по методу наименьших квадратов.

Если сглаживание производиться с помощью полинома (многочлена) второго и третьего порядка, то веса берутся следующие

(-3; 12; 17; 12; - 3) для m=5;

(-2; 3; 6; 7; 3; - 2) для m=7.

Особенности весов:

1) симметричны относительно центрального члена;

2) сумма весов с учетом общего множителя равна единице.

Недостаток метода: первые и последние p наблюдений ряда остаются несглаженными.

Расчет показателей динамики экономических процессов

Расчет показателей динамики экономических процессов - заключительный этап предварительного анализа данных.

Для характеристики динамики изменения экономических показателей часто используется понятие автокорреляции, которая характеризует не только взаимозависимость уровней одного и того же ряда, относящихся к разным моментам наблюдений, но и степень устойчивости развития процесса во времени, величину оптимального периода прогнозирования и т.п.

Степень тесноты статистической связи между уровнями временного ряда, сдвинутыми на ф единиц времени, определяется величиной коэффициента корреляции r(ф). Так как r(ф) измеряет тесноту связи между уровнями одного и того же временного ряда, его принято называть коэффициентом автокорреляции. При этом ф - длину временного смещения - называют обычно лагом.

Коэффициент автокорреляции вычисляют по формуле

При большой протяженности исследуемого ряда расчет коэффициентов автокорреляции можно упростить. Для этого находят отклонения не от средних коррелируемых рядов, а от общей средней всего ряда. В этом случае

Порядок коэффициентов автокорреляции определяется временным лагом: первого порядка (при ф = 1), второго порядка (при ф = 2) и т.д.

Последовательность коэффициентов автокорреляции уровней первого, второго и последующих порядков называют автокорреляционной функцией. Значения которой, могут колебаться от -1 до +1, но из стационарности следует, что r(ф) = - r(ф). График автокорреляционной функции называется коррелограммой.

Анализ автокорреляционной функции и коррелограммы позволяет определить лаг, при котором автокорреляция наиболее высокая, т.е. при помощи анализа автокорреляционной функции и коррелограммы можно выявить структуру ряда.

Если наиболее высоким оказался коэффициент автокорреляции 1 ого порядка, исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка ф, то ряд содержит циклические колебания с периодичностью в ф моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, то можно сделать одно из двух предположений относительно структуры этого ряда: либо ряд не содержит тенденции и сезонных колебаний, либо ряд содержит сильную нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ. Поэтому коэффициент автокорреляции уровней и автокорреляционную функцию целесообразно использовать для выявления во временном ряде наличия или отсутствия трендовой компоненты f(t) и сезонной компоненты S(t).

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения ), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения ).

Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием . Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y . Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

а) Предсказание среднего значения . Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении x p объясняющей переменной.

Запишем эмпирическое уравнение регрессии в виде

Здесь выделены две независимые составляющие: средняя и приращение . Отсюда вытекает, что дисперсия будет равна

Из теории выборки известно, что

Используя в качестве оценки s 2 остаточную дисперсию S 2 , получим



Дисперсия коэффициента регрессии, как уже было показано

Подставляя найденные дисперсии в (5.41), получим

. (5.56)

Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид

. (5.57)

Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от в любом направлении. Иными словами, больше разность между и , тем больше ошибка с которой предсказывается среднее значение y для заданного значения x p . Можно ожидать наилучшие результаты прогноза, если значения x p находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления от .

Случайная величина

(5.58)

имеет распределение Стьюдента с числом степеней свободы n=n –2 (в рамках нормальной классической модели ). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n –2 можно определить критическую точку , удовлетворяющую условию

.

С учетом (5.46) имеем:

.

Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для имеет вид:

, (5.59)

где предельная ошибка D p имеет вид

. (5.60)

Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной x p : при она минимальна, а по мере удаления x p от величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x p объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный, чем ближе x p к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям .

б) Предсказание индивидуальных значений зависимой переменной . На практике иногда более важно знать дисперсию Y , чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S . Это позволяет определять допустимые границы для конкретного значения Y .

Пусть нас интересует некоторое возможное значение y 0 переменной Y при определенном значении x p объясняющей переменной X . Предсказанное по уравнению регрессии значение Y при X =x p составляет y p . Если рассматривать значение y 0 как случайную величину Y 0 , а y p – как случайную величину Y p , то можно отметить, что

,

.

Случайные величины Y 0 и Y p являются независимыми, а следовательно, случайная величина U = Y 0 –Y p имеет нормальное распределение с

И . (5.61)

Используя в качестве s 2 остаточную дисперсию S 2 , получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y :

. (5.63)

Случайная величина

(5.64)

имеет распределение Стьюдента с числом степеней свободы k =n –2. На основании этого можно построить доверительный интервал для индивидуальных значений Y p :

, (5.65)

где предельная ошибка D u имеет вид

. (5.66)

Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).

Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при x p =160.

Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания

Тогда доверительный интервал для среднего значения на уровне значимости a=0,05 будет иметь вид

Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).

Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода x p =160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения

Тогда интервал, в котором будут находиться, по крайней мере, 95% индивидуальных объёмов потребления при доходе x p =160, имеет вид

Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления. â

ПРИМЕРЫ

Пример 5.65. По территориям региона приводятся данные за 199X г. (таб. 1.1).

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F -критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x , составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.

Решение

1. Для определения степени тесноты связи обычно используют коэффициент корреляции :

где , – выборочные дисперсии переменных x и y . Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):

Таблица 5.4

x y xy x 2 y 2 e 2
148,77 -15,77 248,70
152,45 -4,45 19,82
157,05 -23,05 531,48
149,69 4,31 18,57
158,89 3,11 9,64
174,54 20,46 418,52
138,65 0,35 0,13
157,97 0,03 0,00
144,17 7,83 61,34
157,05 4,95 24,46
146,93 12,07 145,70
182,83 -9,83 96,55
Итого 1574,92
Среднее значение 85,58 155,75 13484,00 7492,25 24531,42

По данным таблицы находим:

, , , ,

, , , ,

, .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость .

Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента :

который имеет распределение Стьюдента с k =n –2 и уровнем значимости a. В нашем случае

и .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал , который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n <30), используют z-преобразование Фишера :

Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием и дисперсией . Поэтому вначале строят доверительный интервал для M[z ], а затем делают обратное z -преобразование. Применяя z -преобразование для найденного коэффициента корреляции, получим

Доверительный интервал для M(z ) будет иметь вид

,

где t g находится с помощью функции Лапласа F(t g)=g/2. Для g=0,95 имеем t g =1,96. Тогда

или . Обратное z -преобразование осуществляется по формуле

В результате находим

.

В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.

2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид

,

где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b 0 и b 1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:

где b 0 и b 1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК ). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной:

,

где отклонения y i от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам b 0 и b 1 . В результате получаем систему нормальных уравнений:

Решая эту систему, найдем

, .

По данным таблицы находим

Получено уравнение регрессии:

Параметр b 1 называется коэффициентом регрессии . Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб .

,

где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k 1 =1 и k 2 =n –2. В нашем случае

.

Поскольку критическое значение критерия равно

и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F - и t -критерии связаны равенством , что можно использовать для проверки расчётов.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение y p определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения x p

ЛЕКЦИЯ 5 99

§5.2. Анализ точности оценок коэффициентов регрессии 99

5.2.1. Оценка дисперсии случайного отклонения 99

5.2.2. Проверка гипотез относительно коэффициентов регрессии 100

5.2.3. Интервальные оценка коэффициентов регрессии 103

§5.3. Показатели качества уравнения регрессии 104

5.3.1. Коэффициент детерминации 104

5.3.2. Проверка общего качества уравнения регрессии: F-тест 106

5.3.3. Проверка общего качества уравнения регрессии: t-тест 108

§5.4. Интервалы прогноза по уравнению регрессии 108