Интервальный прогноз по уравнению линейной регрессии. Интервалы прогноза по уравнению регрессии

В прогнозных расчетах по уравнению регрессии определяется предсказываемое значение как точечный прогнозпри
то есть путем подстановки в линейное уравнение регрессии
соответствующего значенияx. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стандартной ошибкито есть
, и соответственно мы получаем интервальную оценку прогнозного значения:

(2.29)

Для того чтобы понять, как строится формула для определения величин стандартной ошибки
тогда уравнение регрессии примет вид:

Отсюда следует, что стандартная ошибка
зависит от ошибкии ошибки коэффициента регрессииb, то есть:

(2.31)

Из теории выборки известно, что

Используя в качестве оценки остаточную дисперсию на одну степень свободы, получим формулу расчета ошибки среднего значения переменнойy:

(2.32)

Ошибки коэффициента регрессии, как уже было показано, определяется формулой

(2.33)

Считая, что прогнозное значение фактора
, получим следующую формулу расчета стандартной ошибки предсказываемого по линии регрессии значения, то есть

. (2.34)

Соответственно
имеет выражение:

(2.35)

Рассмотренная формула стандартной ошибки предсказываемого среднего значения yпри заданном значениихарактеризует ошибку положения линии регрессии. Величина стандартной ошибки
достигает минимума при
и возрастает по мере того, как «удаляется» отв любом направлении. Иными словами, чем больше разность междуи, тем больше ошибки
, с которой предсказывается среднее значениеyдля заданного значения. Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х, и нельзя ожидать хороших результатов прогноза при удаленииот. Если же значениеоказывается за пределами наблюдаемых значений х, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколькоотклоняется от области наблюдаемых значений фактора х. [И. И. Елисеева с. 72]

2.6 Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: например, равносторонней гиперболы
параболы второй степени
и др.

Различают два класса нелинейных регрессий:

    регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;

    регрессии, нелинейные по оцениваемым параметрам;

Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции:


К нелинейным регрессиям по оцениваемым параметрам относятся функции:


Нелинейная регрессия по включенным переменным не имеет никаких сложностей для оценки ее параметров. Они определяются, как и в линейной регрессии, методом наименьших квадратов, ибо эти функции линейны по параметрам. Так, в параболе второй степени
заменив переменные
получим двухфакторное уравнение линейной регрессии:

Для оценки параметров которого используется МНК.

Полином любого порядка сводится к линейной регрессии с ее способами оценивания характеристик и проверки гипотез. Как показывает опыт большинства исследователей, между нелинейной полиномиальной регрессии наиболее часто употребляется парабола второй степени; в отдельных вариантах – полином третьего порядка. Ограничения в использовании полиномов наиболее высоких степеней связаны с требованием односторонности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и в соответствии с этим меньше односторонность совокупности по результативному признаку.

Парабола второй степени целесообразна к использованию, если для конкретного промежутка значений фактора изменяется характер взаимосвязи рассматриваемых показателей: прямая взаимосвязь меняется на обратную или обратная на прямую. В такой ситуации определяется значение фактора, при котором достигается максимальное (или минимальное) значение результативного признака: приравниваем к нулю первую производную параболы второй степени:
b+2cx=0

Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемыми, а форма связи часто заменяется другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени приводит к следующей системе нормальных уравнений:

(2.36)

Решить ее относительно параметров a,b,cможно методом определителей:

где - определитель системы;

a,b,c– частные определители для каждого из параметров.

При b>0 иc>0 кривая симметрична относительно высшей точки, то есть точки перелома кривой, изменяющей направление взаимосвязи, а конкретно подъем на падение. Такого рода функцию можно наблюдать в экономике труда при исследовании зависимости заработной платы работников физического труда от возраста – с повышением возраста увеличивается заработная плата ввиду одновременного роста опыта и повышения квалификации работника. Приb<0 иc>0 парабола второго порядка симметрична относительно своего минимума, что позволяет определять минимум функции в точке, меняющей направление связи, то есть снижение на рост.

Ввиду симметричности кривой параболу второй степени не всегда возможно применить в конкретных случаях. Параметры параболической взаимосвязи не всегда могут быть логически объяснены. Таким образом, график зависимости не показывает четко выраженной параболы второго порядка, то она может быть заменена другой нелинейной функцией.

В группе нелинейных функций, параметры которых будут оценены МНК, в эконометрике хорошо известна равносторонняя гипербола
Она может быть использована для объяснения взаимосвязи удельных расходов. Стандартным примером является кривая Филлипса, объясняющая нелинейное соотношение между нормой безработицыxи процентом прироста заработной платыy.

Британский экономист А. В. Филлипс установил обратную взаимозависимость процента прироста заработной платы от уровня безработицы.

Если в уравнении равносторонней гиперболы
заменитьнаz, получим линейное уравнение регрессииy=a+bz+e, параметры будут оценены с помощью МНК. Система нормальных уравнений имеет вид:

(2.37)

При b>0 имеем обратную зависимость, которая при х стремящемуся к бесконечности объясняется нижней асимптотой, то есть минимальным предельным значениемy, оценкой которого служит параметрa.

При b<0 имеем медленно повышающуюся функцию с верхней асимптотой при х стремящемуся к бесконечности, то есть с максимальным предельным уровнемy, оценку которого в уравнении дает параметр а.

Среди нелинейных функций в эконометрических исследованиях глубоко используется степенная функция
Это связано с тем, что параметрbв функции имеет четкое экономическое объяснение, то есть являетсякоэффициентом эластичности . Это говорит о том, что величина коэффициентаbпоказывает, на сколько процентов изменится в средним итог, если фактор изменится на 1%.Формула расчета коэффициента эластичности:

(2.38)

где f’(x) – первая производная, характеризующая соотношение приростов результата для соответствующей формы связи.

В связи с тем, что коэффициент эластичности для линейной функции не является величиной постоянной обычно рассчитывается средний показатель эластичности по формуле:

(2.39)

Для оценки параметров степенной функции применяется МНК к линеаризованному уравнению и решается система нормальных уравнений. Параметр bопределяется из системы, а параметр а – после потенцирования величиныlna.

В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Поскольку в линейной модели и моделях, нелинейных по переменным, при оценке параметров появляются из критерия
то в моделях, нелинейных по оцениваемым параметрам, требование МНК применяется не к исходным данным результативного признака, а их преобразованным величинам. Это поясняется тем, что оценка параметров основывается на минимизации суммы квадратов отклонений в логарифмах.

При использовании связей среди функций, применяющих lny, в эконометрике преобладают степенные зависимости – это и кривые спроса и предложения, и кривые Энгеля, и производственные функции, и критерии освоения для характеристики связи между трудоемкостью продукции и размерами производства в период освоения выпуска нового вида изделий, и зависимость валового национального дохода от уровня занятости.

При применении линеаризуемых функций, затрагивающих преобразования зависимой переменной y, следует проверить присутствие предпосылок МНК, что бы они не нарушались при преобразовании. При нелинейных отношениях рассматриваемых признаков, приводимых к линейному виду, возможно интервальное оценивание параметров нелинейной функции.

Для внутренне нелинейных моделей, которые путем несложных преобразований не приводятся к линейному виду, оценка параметров не может быть дана привычным МНК. Здесь используются иные подходы. [И. И. Елисеева с. 77]

Применение линейной регрессии в прогнозировании

Прогнозирование - это самостоятельная отрасль науки, которая находит широкое применение во всех сферах человеческой деятельности. Существует большое разнообразие видов и способов прогнозирования, разработанных с учетом характера рассматриваемых задач, целей исследования, состояния информации. Этим вопросам посвящено много книг и журнальных статей. Покажем на примере линейной регрессии применение эконометрических моделей в прогнозировании значений экономических показателей.

В обыденном понимании прогнозирование - это предсказание будущего состояния интересующего нас объекта или явления на основе ретроспективных данных о прошлом и настоящем состояниях при условии наличия причинно-следственной связи между прошлым и будущим. Можно сказать, что прогноз - это догадка, подкрепленная знанием. Поскольку прогностические оценки по сути своей являются приближенными, может возникнуть сомнение относительно его целесообразности вообще. Поэтому основное требование, предъявляемое к любому прогнозу, заключается в том, чтобы в пределах возможного минимизировать погрешности в соответствующих оценках. По сравнению со случайными и интуитивными прогнозами, научно обоснованные и планомерно разрабатываемые прогнозы без сомнения являются более точными и эффективными. Как раз такими являются прогнозы, основанные на использовании методов статистического анализа. Можно утверждать, что из всех способов прогнозирования именно они внушают наибольшее доверие, во-первых, потому что статистические данные служат надежной основой для принятия решений относительно будущего, во-вторых, такие прогнозы вырабатываются и подвергаются тщательной проверке с помощью фундаментальных методов математической статистики.

Оценка параметров линейной регрессии представляет собой прогноз истинных значений этих параметров, выполненный на основе статистических данных. Полученные прогнозы, оказываются достаточно эффективными, так как они являются несмещенными оценками истинных параметров.

Применим модель линейной регрессии (8.2.4) с найденными параметрами (8.2.8) и (8.2.9) для определения объясняемой переменной на некоторое множество ненаблюдаемых значений объясняющей переменной . Точнее говоря, поставим задачу прогнозирования среднего значения , соответствующего некоторому значению объясняющей переменной , которое не совпадает ни с одним значением . При этом может лежать как между выборочными наблюдениями так и вне интервала . Прогноз значения может быть точечным или интервальным. Ограничимся рассмотрением точечного прогноза, т.е. искомое значение определим в виде

где - наблюдаемые значения случайной величины , а - коэффициенты (веса), которые должны быть выбраны так, чтобы был наилучшим линейным несмещенным прогнозом, т.е. чтобы

Из (8.5.1) для наблюдаемых значений

Так как по свойству математического ожидания ((2.5.4) - (2.5.5))

,

Но так как в правой части под оператором математического ожидания стоят только постоянные числа, то

Учитывая соотношение можем сказать теперь, что будет несмещенным линейным прогнозом для тогда и только тогда, когда

Следовательно, всякий вектор удовлетворяющий условиям (8.5.2), делает выражение (8.5.1) несмещенным линейным прогнозом величины . Поэтому надо найти конкретное выражение весов через известные нам величины. Для этого решим задачу минимизации дисперсии величины :

Так как под оператором дисперсии в первом слагаемом правой части уравнения стоят постоянные числа, то

С учетом предположений b) и c) и пользуясь свойствами дисперсии (2.5.4) и (2.5.6), имеем:

где - среднеквадратическое отклонение случайной величины .

Составим оптимизационную задачу минимизации дисперсии с ограничениями (8.5.2):

при ограничениях

Так как множитель не зависит от и не влияет на минимальное значение целевой функции, то функцию Лагранжа (см. (2.3.8)) сконструируем следующим образом:

где и - множители Лагранжа. Необходимые условия оптимальности точки имеют вид (см. (2.3.9)):

(8.5.3)

Просуммировав первое уравнение по , с учетом второго уравнения получим:

Отсюда находим множитель Лагранжа

где - среднее значение случайной величины . Полученное значение вновь подставим в первое уравнение системы (8.5.3) и найдем

Точечный прогноз заключается в получении прогнозного значения уp , которое определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения xp:

уp = a + b* xp

Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin , уpmax интервала, содержащего точную величину для прогнозного значения yp (ypmin < yp < ypmin ) с заданной вероятностью.

При построении доверительного интервала прогноза используется стандартная ошибка прогноза :

Где

Строится доверительный интервал прогноза :

Множественный регрессионный анализ

(слайд 1) Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств.

Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.

Таким образом, множественная регрессия – это уравнение связи с несколькими независимыми переменными:

(слайд 2) Построение уравнения множественной регрессии

1. Постановка задачи

По имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p +1 параметра y и xj и ((yi,xj,i ); j =1, 2, ..., p ; i =1, 2, ..., n ) необходимо определить аналитическую зависимость ŷ = f(x1 ,x2 ,...,xp) , наилучшим образом описывающую данные наблюдений.

Таблица 3.1

Данные наблюдений

x1 1

х1 2

х1 n

x 2 n

Каждая строка таблицы представляет собой результат одного наблюдения. Наблюдения различаются условиями их проведения.

Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных значений результативного показателя ŷi от наблюдаемых значений yi:

2. Спецификация модели

(слайд 3) Спецификация модели включает в себя решение двух задач:

– отбор факторов, подлежащих включению в модель;

– выбор формы уравнения регрессии.

2.1. Отбор факторов при построении множественной регрессии

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлениями исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.

К факторам, включаемым в модель, предъявляются следующие требования :

1. Факторы должны быть количественно измеримы. Включение фактора в модель должно приводить к существенному увеличению доли объясненной части в общей вариации зависимой переменной. Поскольку данная величина характеризуется коэффициентом детерминации , включение нового фактора в модель должно приводить к заметному изменению коэффициента. Если этого не происходит, то включаемый в анализ фактор не улучшает модель и является лишним.

Например, если для регрессии, включающей 5 факторов, коэффициент детерминации составил 0,85, и включение шестого фактора дало коэффициент детерминации 0,86, то вряд ли целесообразно дополнять модель этим фактором.

Если необходимо включить в модель качественный фактор, не имеющий количественной оценки, то нужно придать ему количественную определенность. В этом случае в модель включается соответствующая ему «фиктивная» переменная , имеющая конечное количество формально численных значений, соответствующих градациям качественного фактора (балл, ранг).

Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную, принимающую значения: 0 – при начальном образовании, 1 – при среднем, 2 – при высшем.

Несмотря на то, что теоретически регрессионная модель позволяет учесть любое количество факторов, на практике в этом нет необходимости, т.к. неоправданное их увеличение приводит к затруднениям в интерпретации модели и снижению достоверности результатов.

2. Факторы не должны быть взаимно коррелированы и, тем более, находиться в точной функциональной связи. Наличие высокой степени коррелированности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изолированное влияние факторов на результативный показатель. В результате параметры регрессии оказываются неинтерпретируемыми.

Пример . Рассмотрим регрессию себестоимости единицы продукции (у ) от заработной платы работника (х ) и производительности труда в час (z ).

Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед-цу в час себестоимость единицы продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда.

А параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии в данном случае обусловлено высокой корреляцией между х и z (0,95).

(слайд 4) Считается, что две переменные явно коллинеарны , т.е. находятся между собой в линейной зависимости, если коэффициент интеркорреляции (корреляции между двумя объясняющими переменными) ≥ 0,7. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из уравнения. Предпочтение при этом отдается не тому фактору, который более тесно связан с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Наряду с парной коллинеарностью может иметь место линейная зависимость между более чем двумя переменными – мультиколлинеарность , т.е. совокупное воздействие факторов друг на друга.

Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать в унисон. В результате вариация в исходных данных перестанет быть полностью независимой, что не позволит оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК.

(слайд 5) Включение в модель мультиколлинеарных факторов нежелательно по следующим причинам :

    затрудняется интерпретация параметров множественной регрессии; параметры линейной регрессии теряют экономический смысл;

    оценки параметров не надежны, имеют большие стандартные ошибки и меняются с изменением количества наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

(слайд 6) Для оценки мультиколлинеарности используется определитель матрицы парных коэффициентов интеркорреляции :

(!) Если факторы не коррелируют между собой , то матрица коэффициентов интеркорреляции является единичной, поскольку в этом случае все недиагональные элементы равны 0. Например, для уравнения с тремя переменными матрица коэффициентов интеркорреляции имела бы определитель, равный 1, поскольку
и
.

(слайд 7)

(!) Если между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0 (Если две строки матрицы совпадают, то её определитель равен нулю).

Чем ближе к 0 определитель матрицы коэффициентов интеркорреляции, тем сильнее мультиколлинеарность и ненадежнее результаты множественной регрессии.

Чем ближе к 1 определитель матрицы коэффициентов интеркорреляции, тем меньше мультиколлинеарность факторов.

(слайд 8) Способы преодоления мультиколлинеарности факторов :

1) исключение из модели одного или нескольких факторов;

2) переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Например, если
, то можно построить следующее совмещенное уравнение:;

3) переход к уравнениям приведенной формы (в уравнение регрессии подставляется рассматриваемый фактор, выраженный из другого уравнения).

(слайд 9) 2.2. Выбор формы уравнения регрессии

Различают следующие виды уравнений множественной регрессии :

    линейные,

    нелинейные, сводящиеся к линейным,

    нелинейные, не сводящиеся к линейным (внутренне нелинейные).

В первых двух случаях для оценки параметров модели применяются методы классического линейного регрессионного анализа. В случае внутренне нелинейных уравнений для оценки параметров применяются методы нелинейной оптимизации.

Основное требование, предъявляемое к уравнениям регрессии, заключается в наличии наглядной экономической интерпретации модели и ее параметров. Исходя из этих соображений, наиболее часто используются линейная и степенная зависимости.

Линейная множественная регрессия имеет вид:

Параметры bi при факторах хi называются коэффициентами «чистой» регрессии . Они показывают, на сколько единиц в среднем изменится результативный признак за счет изменения соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.

(слайд 10) Например, зависимость спроса на товар (Qd) от цены (P) и дохода (I) характеризуется следующим уравнением:

Qd = 2,5 - 0,12P + 0,23 I.

Коэффициенты данного уравнения говорят о том, что при увеличении цены на единицу, спрос уменьшится в среднем на 0,12 единиц, а при увеличении дохода на единицу, спрос возрастет в среднем 0,23 единицы.

Параметр а не всегда может быть содержательно проинтерпретирован.

Степенная множественная регрессия имеет вид:

Параметры bj (степени факторов хi ) являются коэффициентами эластичности. Они показывают, на сколько % в среднем изменится результативный признак за счет изменения соответствующего фактора на 1% при неизмененном значении остальных факторов.

Наиболее широкое применение этот вид уравнения регрессии получил в производственных функциях, а также при исследовании спроса и потребления.

Например, зависимость выпуска продукции Y от затрат капитала K и труда L:
говорит о том, что увеличение затрат капитала K на 1% при неизменных затратах труда вызывает увеличение выпуска продукции Y на 0,23%. Увеличение затрат труда L на 1% при неизменных затратах капитала K вызывает увеличение выпуска продукции Y на 0,81 %.

Возможны и другие линеаризуемые функции для построения уравнения множественной регрессии:


Чем сложнее функция, тем менее интерпретируемы ее параметры. Кроме того, необходимо помнить о соотношении между количеством наблюдений и количеством факторов в модели. Так, для анализа трехфакторной модели должно быть проведено не менее 21 наблюдения.

(слайд 11) 3. Оценка параметров модели

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов , согласно которому следует выбирать такие значения параметров а и bi , при которых сумма квадратов отклонений фактических значений результативного признака yi от теоретических значений ŷ минимальна, т. е.:

Если , тогдаS является функцией неизвестных параметров a , bi :

Чтобы найти минимум функции, нужно найти частные производные по каждому из параметров и приравнять их к 0:

Отсюда получаем систему уравнений:

(слайд 12) Ее решение может быть осуществлено методом определителей:

,

где – определитель системы;

a , ∆ b 1, ∆ bp – частные определители (j ).

–определитель системы,

j – частные определители, которые получаются из основного определителя путем замены j-го столбца на столбец свободных членов .

При использовании данного метода возможно возникновение следующих ситуаций:

1) если основной определитель системы Δ равен нулю и все определители Δj также равны нулю, то данная система имеет бесконечное множество решений;

2) если основной определитель системы Δ равен нулю и хотя бы один из определителей Δj также равен нулю, то система решений не имеет.

(слайд 13) Помимо классического МНК для определения неизвестных параметров линейной модели множественной регрессии используется метод оценки параметров через β -коэффициенты – стандартизованные коэффициенты регрессии.

Построение модели множественной регрессии в стандартизированном, или нормированном, масштабе означает, что все переменные, включенные в модель регрессии, стандартизируются с помощью специальных формул.

У равнение регрессии в стандартизованном масштабе:

где
,
- стандартизованные переменные;

- стандартизованные коэффициенты регрессии.

Т.е. посредством процесса стандартизации точкой отсчета для каждой нормированной переменной устанавливается ее среднее значение по выборочной совокупности. При этом в качестве единицы измерения стандартизированной переменной принимается ее среднеквадратическое отклонение σ .

β -коэффициенты показывают , на сколько сигм (средних квадратических отклонений) изменится в среднем результат за счет изменения соответствующего фактора xi на одну сигму при неизменном среднем уровне других факторов.

Стандартизованные коэффициенты регрессии βi сравнимы между собой, что позволяет ранжировать факторы по силе их воздействия на результат. Большее относительное влияние на изменение результативной переменной y оказывает тот фактор, которому соответствует большее по модулю значение коэффициента βi . В этом основное достоинство стандартизованных коэффициентов регрессии , в отличие от коэффициентов «чистой» регрессии, которые не сравнимы между собой.

(слайд 14) Связь коэффициентов «чистой» регрессии bi с коэффициентами βi описывается соотношением:

, или

Параметр a определяется как .

Коэффициенты β определяются при помощи МНК из следующей системы уравнений методом определителей:

Для оценки параметров нелинейных уравнений множественной регрессии предварительно осуществляется преобразование последних в линейную форму (с помощью замены переменных) и МНК применяется для нахождения параметров линейного уравнения множественной регрессии в преобразованных переменных. В случае внутренне нелинейных зависимостей для оценки параметров приходится применять методы нелинейной оптимизации.

(слайд 1) 4. Проверка качества уравнения регрессии

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, т.е. оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции рассчитывается по формуле:

Коэффициент множественной корреляции принимает значения в диапазоне 0 ≤ R ≤ 1. Чем ближе он к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

При линейной зависимости признаков формулу индекса множественной корреляции можно записать в виде:

,

где - стандартизованные коэффициенты регрессии,

- парные коэффициенты корреляции результата с каждым фактором.

Данная формула получила название линейного коэффициента множественной корреляции , или совокупного коэффициента корреляции .

Индекс детерминации для нелинейных по оцениваемым параметрам функций принято называть «квази-
».
Для его определения по функциям, использующим логарифмические преобразования (степенная, экспонента), необходимо сначала найти теоретические значения ln y, затем трансформировать их через антилогарифмы (антилогарифм ln y = y) и далее определить индекс детерминации как «квази-
» по формуле:

.

Величина «квази-
» не будет совпадать с совокупным коэффициентом корреляции, который может быть рассчитан для линейного в логарифмах уравнения множественной регрессии, потому что в последнем раскладывается на факторную и остаточную суммы квадратов не
, а
.

(слайд 2) Использование коэффициента множественной детерминации
для оценки качества модели обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину
.
Поэтому при большом количестве факторов предпочтительней использовать так называемый скорректированный (улучшенный) коэффициент множественной детерминации
, определяемый соотношением:

где n – число наблюдений,

m – число параметров при переменных х (чем больше величина m, тем сильнее различия между к-том множ. детерминации
и скорректированным к-том
).

При заданном объеме наблюдений и при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный к-т множ. детерминации убывает. Его величина может стать и отрицательной при слабых связях результата с факторами. При небольшом числе наблюдений нескорректированная величина к-та имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Чем больше объем совокупности, по которой исчислена регрессия, тем меньше различаются
и
.

Отметим, что низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации может быть обусловлено следующими причинами :

– в регрессионную модель не включены существенные факторы;

– неверно выбрана форма аналитической зависимости, не отражающая реальные соотношения между переменными, включенными в модель.

(слайд 3) Значимость уравнения множественной регрессии в целом оценивается с помощью F - критерия Фишера :

Выдвигаемая «нулевая» гипотеза H0 о статистической незначимости уравнения регрессии отвергается при выполнении условия F > F крит, где F крит определяется по таблицам F -критерия Фишера по двум степеням свободы k 1 = m , k 2= n- m - 1 и заданному уровню значимости α.

Значимость одного и того же фактора может быть различной в зависимости от последовательности введения его в модель.

(слайд 4) Мерой для оценки включения фактора в модель служит частный F -критерий (оценивает статистическую значимость присутствия каждого из факторов в уравнении):

,

где
- коэффициент множ. детерминации для модели с полным

набором факторов;

- тот же показатель, но без включения в модель фактора х1 ;

n – число наблюдений;

m – число параметров при переменных х.

Если фактическое значение F превышает табличное, то дополнительное включение в модель фактора xi статистически оправдано и коэффициент чистой регрессии bi при факторе xi статистически значим.

Если же фактическое значение F меньше табличного, то нецелесообразно включать в модель дополнительный фактор, поскольку он не увеличивает существенно долю объясненной вариации результата, а коэффициент регрессии при данном факторе статистически не значим.

(слайд 5) Частный F-критерий оценивает значимость коэффициентов чистой регрессии. Зная величину , можно определить и t -критерий Стьюдента :

или

где m bi – средняя квадратическая ошибка коэффициента регрессии b i , она может быть определена по формуле:

.

Величина стандартной ошибки совместно с t-распределением Стьюдента при n-m-1 степенях свободы применяется для проверки значимости коэффициента регрессии и для расчета его доверительного интервала.

Для прогнозирования с помощью уравнения регрессии необходимо вычислить коэффициенты и уравнения регрессии. И здесь существует еще одна проблема сказывающаяся на точности прогнозирования. Она заключается в том, что обычно нет всех возможных значений переменных Х и У, т.е. генеральная совокупность совместного распределения в задачах прогнозирования не известна, известна только выборка из этой генеральной совокупности. В результате этого при прогнозировании помимо случайной составляющей возникает еще один источник ошибок – ошибки, вызванные не полным соответствием выборки генеральной совокупности и порождаемыми этим погрешностями в определении коэффициентов уравнения регрессии.

Иными словами вследствие того, что генеральная совокупность не известна, точные значения коэффициентов и уравнения регрессии определить не возможно. Используя выборку из этой неизвестной генеральной совокупности можно лишь получить оценки и истинных коэффициентов и.

Для того чтобы ошибки прогнозирования в результате такой замены были минимальными, оценку необходимо осуществлять методом который гарантирует несмещенность и эффективность полученных значений. Метод обеспечивает несмещенные оценки, если при неоднократном его повторении с новыми выборками из одной и той же генеральной совокупности обеспечивается выполнение условия и. Метод обеспечивает эффективные оценки, если при неоднократном его повторении с новыми выборками из одной и той же генеральной совокупности обеспечивается минимальная дисперсия коэффициентов a и b, т.е. выполняются условия и.

В теории вероятности доказана теорема согласно которой эффективность и несмещенность оценок коэффициентов уравнения линейной регрессии по данным выборки обеспечивается при применении метода наименьших квадратов.

Суть метода наименьших квадратов заключается в следующем.

Для каждой из точек выборки записываются уравнение вида. Затем находятся ошибка между расчетным и фактическим значениями. Решение оптимизационной задачи по нахождению таких значений и которые обеспечивают минимальную сумму квадратов ошибок для всех n точек, т.е. решение задачи поиска, дает несмещенные и эффективные оценки коэффициентов и. Для случая парной линейной регрессии это решение имеет вид:

Следует отметить, что полученные таким образом по выборке несмещенные и эффективные оценки истинных значений коэффициентов регрессии для генеральной совокупности вовсе не гарантируют от ошибки при однократном применении. Гарантия заключается в том, что, в итоге многократного повторения этой операции с другими выборками из той же генеральной совокупности, гарантирована меньшая сумма ошибок по сравнению любым другим способом и разброс этих ошибок будет минимален.


Полученные коэффициенты уравнения регрессии определяют положение регрессионной прямой, она является главной осью облака образованного точками исходной выборки. Оба коэффициента имеют вполне определенный смысл. Коэффициент показывает значение при, но в многих случаях не имеет смысла, кроме того часто также не имеет смысла, по этому приведенной трактовкой коэффициента нужно пользоваться осторожно. Более универсальная трактовка смысла заключается в следующем. Если, то относительное изменение независимой переменной (изменение в процентах) всегда меньше чем относительное изменение зависимой переменной.

Коэффициент показывает насколько единиц изменится зависимая переменная при изменении независимой переменной на одну единицу. Коэффициент часто называют коэффициентом регрессии подчеркивая этим, что он важнее чем. В частности, если вместо значений зависимой и независимой переменных взять их отклонения от своих средних значений, то уравнение регрессии преобразуется к виду.

Коэффициент корреляции меняется в пределах от –1 до +1. Чем он ближе по абсолютному значению к единице, тем сильнее зависимость (тем сильнее облако данных прижато к своей главной оси). Если то наклон линии регрессии отрицателен, чем ближе он к 0 тем слабее связь, при линейной связи между переменными нет, а при связь переменных является функциональной. Коэффициент корреляции позволяет получить оценку точности уравнения регрессии - коэффициент детерминации. Для парной линейной регрессии он равен квадрату коэффициента корреляции, для многомерной или нелинейной регрессии его определение сложнее. Коэффициент детерминации показывает, сколько процентов дисперсии зависимой переменной объясняется уравнением регрессии, а - сколько процентов дисперсии осталась необъясненной (зависит от неконтролируемого нами случайного члена).

32. Временные ряды: понятие, классификация.

Модели, построенные по данным, характеризующим один объект за ряд последовательных моментов (периодов), называются моделями временных рядов.

Временной ряд – это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов.

Предполагается, что в общем случае каждый уровень временного ряда содержит три основные компоненты: тенденцию (Т), циклические или сезонные колебания (S) и случайную компоненту (E).

Виды временных рядов.

Временные ряды делятся на моментные и интервальные. В моментных временных рядах уровни характеризуют значения показателя по состоянию на определенные моменты времени. Например, моментными являются временные ряды цен на определенные виды товаров, временные ряды курсов акций, уровни которых фиксируются для конкретных чисел. Примерами моментных временных рядов могут служить также ряды численности населения или стоимости основных фондов, т.к. значения уровней этих рядов определяются ежегодно на одно и то же число.

В интервальных рядах уровни характеризуют значение показателя за определенные интервалы (периоды) времени. Примерами рядов этого типа могут служить временные ряды производства продукции в натуральном или стоимостном выражении за месяц, квартал, год и т.д.

Иногда уровни ряда представляют собой не непосредственно наблюдаемые значения, а производные величины: средние или относительные. Такие ряды называются производными. Уровни таких временных рядов получаются с помощью некоторых вычислений на основе непосредственно наблюдаемых показателей. Примерами таких рядов могут служить ряды среднесуточного производства основных видов промышленной продукции или ряды индексов цен.

Уровни ряда могут принимать детерминированные или случайные значения. Примером ряда с детерминированными значениями уровней

служит ряд последовательных данных о количестве дней в месяцах. Естественно, анализу, а в дальнейшем и прогнозированию, подвергаются ряды со случайными значениями уровней. В таких рядах каждый уровень может рассматриваться как реализация случайной величины - дискретной или непрерывной.

33. Компонентный анализ рядов динамики.

Ряды динамики - это ряды статистических показателей, характеризующих развитие явлений природы и общества во времени. Публикуемые Госкомстатом России статистические сборники содержат большое количество рядов динамики в табличной форме. Ряды динамики позволяют выявить закономерности развития изучаемых явлений.

Для более глубокого изучения закономерностей развития показателя используется компонентный анализ, который представляет из себя разложение данного временного ряда на конечное число соответствующих. Любой экономический процесс может быть представлен хотя бы одним из нижеуказанных компонент.

Наиболее часто встречающимися, на которые можно разложить временной ряд, являются следующие:

U (t) – характеризует устойчивые систематические изменения уровней ряда, т.е. тренд

K (t) – нестрого периодические циклические колебания

V (t) – строго периодические колебания (сезонные).

E (t) – случайная компонента (несистематические колебания, которые возникают от случая.

Однако часто приходится встречаться с такими рядами динамики, в которых уровни ряда претерпевают самые различные изменения (то возрастают, то убывают) и общая тенденция развития неясна.

На развитие явления во времени оказывают влияние факторы, различные по характеру и силе воздействия. Одни из них оказывают практически постоянное воздействие и формируют в рядах динамики определенную тенденцию развития. Воздействие же других факторов может быть кратковременным или носить случайный характер.

Поэтому при анализе динамики речь идет не просто о тенденции развития, а об основной тенденции, достаточно стабильной (устойчивой) на протяжении изученного этапа развития.

34. Способы установления наличия тенденции в ряду динамики.

Приемы для установления тенденций или закономерностей.

o Преобразование ряда - применяется для большей наглядности зменений изучаемых явлений. Одно число ряда принимается за 1, чаще всего за 100 или 1000, и, по отношению к данному числу ряда, рассчитываются остальные.

o Выравнивание ряда - применяется при скачкообразных изменениях (колебаниях) уровней ряда. Цель выравнивания - устранить влияние случайных факторов и выявить тенденцию изменений значений явлений (или признаков), а в дальнейшем установить закономерности этих изменений

Способы и методы выявления тренда:

1)Увеличение интервалов.

Первоначальный ряд динамики заменяется другим рядом, уровни которого относятся к большим по продолжительности периодам времени. Новые уровни образуются суммированием старых.

2)Вычисление средних уровней для укрупненных интервалов. Является частным случаем первого метода.

3)Определение скользящей средней – для первоначального ряда динамики формируются увеличенные интервалы, состоящие из одинакового количества уровней. Каждый новый интервал получается из предыдущего смещением на один уровень.

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения ), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения ).

Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием . Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y . Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

а) Предсказание среднего значения . Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении x p объясняющей переменной.

Запишем эмпирическое уравнение регрессии в виде

Здесь выделены две независимые составляющие: средняя и приращение . Отсюда вытекает, что дисперсия будет равна

Из теории выборки известно, что

Используя в качестве оценки s 2 остаточную дисперсию S 2 , получим



Дисперсия коэффициента регрессии, как уже было показано

Подставляя найденные дисперсии в (5.41), получим

. (5.56)

Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид

. (5.57)

Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от в любом направлении. Иными словами, больше разность между и , тем больше ошибка с которой предсказывается среднее значение y для заданного значения x p . Можно ожидать наилучшие результаты прогноза, если значения x p находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления от .

Случайная величина

(5.58)

имеет распределение Стьюдента с числом степеней свободы n=n –2 (в рамках нормальной классической модели ). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n –2 можно определить критическую точку , удовлетворяющую условию

.

С учетом (5.46) имеем:

.

Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для имеет вид:

, (5.59)

где предельная ошибка D p имеет вид

. (5.60)

Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной x p : при она минимальна, а по мере удаления x p от величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x p объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный, чем ближе x p к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям .

б) Предсказание индивидуальных значений зависимой переменной . На практике иногда более важно знать дисперсию Y , чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S . Это позволяет определять допустимые границы для конкретного значения Y .

Пусть нас интересует некоторое возможное значение y 0 переменной Y при определенном значении x p объясняющей переменной X . Предсказанное по уравнению регрессии значение Y при X =x p составляет y p . Если рассматривать значение y 0 как случайную величину Y 0 , а y p – как случайную величину Y p , то можно отметить, что

,

.

Случайные величины Y 0 и Y p являются независимыми, а следовательно, случайная величина U = Y 0 –Y p имеет нормальное распределение с

И . (5.61)

Используя в качестве s 2 остаточную дисперсию S 2 , получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y :

. (5.63)

Случайная величина

(5.64)

имеет распределение Стьюдента с числом степеней свободы k =n –2. На основании этого можно построить доверительный интервал для индивидуальных значений Y p :

, (5.65)

где предельная ошибка D u имеет вид

. (5.66)

Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).

Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при x p =160.

Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания

Тогда доверительный интервал для среднего значения на уровне значимости a=0,05 будет иметь вид

Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).

Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода x p =160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения

Тогда интервал, в котором будут находиться, по крайней мере, 95% индивидуальных объёмов потребления при доходе x p =160, имеет вид

Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления. â

ПРИМЕРЫ

Пример 5.65. По территориям региона приводятся данные за 199X г. (таб. 1.1).

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F -критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x , составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.

Решение

1. Для определения степени тесноты связи обычно используют коэффициент корреляции :

где , – выборочные дисперсии переменных x и y . Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):

Таблица 5.4

x y xy x 2 y 2 e 2
148,77 -15,77 248,70
152,45 -4,45 19,82
157,05 -23,05 531,48
149,69 4,31 18,57
158,89 3,11 9,64
174,54 20,46 418,52
138,65 0,35 0,13
157,97 0,03 0,00
144,17 7,83 61,34
157,05 4,95 24,46
146,93 12,07 145,70
182,83 -9,83 96,55
Итого 1574,92
Среднее значение 85,58 155,75 13484,00 7492,25 24531,42

По данным таблицы находим:

, , , ,

, , , ,

, .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость .

Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента :

который имеет распределение Стьюдента с k =n –2 и уровнем значимости a. В нашем случае

и .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал , который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n <30), используют z-преобразование Фишера :

Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием и дисперсией . Поэтому вначале строят доверительный интервал для M[z ], а затем делают обратное z -преобразование. Применяя z -преобразование для найденного коэффициента корреляции, получим

Доверительный интервал для M(z ) будет иметь вид

,

где t g находится с помощью функции Лапласа F(t g)=g/2. Для g=0,95 имеем t g =1,96. Тогда

или . Обратное z -преобразование осуществляется по формуле

В результате находим

.

В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.

2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид

,

где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b 0 и b 1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:

где b 0 и b 1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК ). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной:

,

где отклонения y i от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам b 0 и b 1 . В результате получаем систему нормальных уравнений:

Решая эту систему, найдем

, .

По данным таблицы находим

Получено уравнение регрессии:

Параметр b 1 называется коэффициентом регрессии . Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб .

,

где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k 1 =1 и k 2 =n –2. В нашем случае

.

Поскольку критическое значение критерия равно

и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F - и t -критерии связаны равенством , что можно использовать для проверки расчётов.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение y p определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения x p

ЛЕКЦИЯ 5 99

§5.2. Анализ точности оценок коэффициентов регрессии 99

5.2.1. Оценка дисперсии случайного отклонения 99

5.2.2. Проверка гипотез относительно коэффициентов регрессии 100

5.2.3. Интервальные оценка коэффициентов регрессии 103

§5.3. Показатели качества уравнения регрессии 104

5.3.1. Коэффициент детерминации 104

5.3.2. Проверка общего качества уравнения регрессии: F-тест 106

5.3.3. Проверка общего качества уравнения регрессии: t-тест 108

§5.4. Интервалы прогноза по уравнению регрессии 108