Регрессионная статистика значение множественный r. Множественная линейная корреляция. Метод имитационного моделирования Монте-Карло

Оценка качества модели по критериям Стьюдента и Фишера будет проводиться путём сравнения расчетных значений с табличными.

Для оценки качества модели по критерию Стьюдента фактическое значение этого критерия (t набл)

сравнивается с критическим значением t кр которое берется из таблицы значений t с учетом заданного уровня значимости (α = 0.05 ) и числа степеней свободы (n - 2) .

Если t набл > t кр, то полученное значение коэффициента парной корреляции признается значимым.

Критическое значение при и равно .

Проверим значимость коэффициента детерминации, используя F ‑критерий Фишера.

Вычислим статистику F по формуле:

m = 3 – число параметров в уравнении регрессии;

N = 37 – число наблюдений в выборочной совокупности.

Математической моделью статистического распределения F -статистики является распределение Фишера с и степенями свободы. Критическое значение этой статистики при и и степенях свободы равно .

Критерий Фишера
F расч F кр Уравнение регрессии
8916.383 3.276 адекватно

Таким образом, модель объясняет 99.8% общей дисперсии признака Y . Это указывает на то, что подобранная модель является адекватной.


Расчет прогнозных значений и суммы квадратов отклонений.

Введем в ячейку Q2 формулу =$F$54*N2+$E$54*O2 (расчет прогнозных значений), затем скопируем ее в ячейки Q3:Q38 . В ячейку R2 формулу =(P2-Q2)^2 (расчет суммы квадратов отклонений), затем скопируем ее в ячейки R3:R38 , и подсчитаем сумму полученных значений в ячейке R39 .

X 2 X 5 Y y(x) (Y - y(x)) 2
605.1 2063.2 1626.7 1589.7 1367.523
620.1 2143.7 1602.5 1650.5 2303.318
2447.7 1880.7 1914.5 1144.709
862.1 2406.4 1982.7 1876.9 11189.53
958.4 2592.9 2026.7 106.5821
1488.9 2193.9 2180.4 182.342
1231.5 2529.7 2152.1 2020.4 17335.88
1429.6 2644.9 2133.1 8814.026
1679.5 2793.7 2344.4 2277.8 4436.216
1326.2 2669.2 2341.7 2135.8 42415.15
1456.8 2211.9 2282.7 5014.463
2523.6 2990.5 2629.8 2543.9 7377.384
2659.8 2017.5 2059.0 1722.637
923.8 2636.6 2009.4 2053.4 1939.955
1173.3 2943.1 2312.8 2792.24
1156.7 2890.9 2400.1 2272.4 16298.85
1450.2 3051.5 2508.1 2432.0 5784.146
1845.2 2684.1 2633.3 2581.453
1566.4 3052.6 2736.6 2449.8 82275.65
1729.7 3349.7 2824.5 2689.8 18152.31
1987.3 3456.3 2880.2 2804.9 5676.928
1902.7 3731.2 2812.9 2992.6 32297.9
1839.1 3517.8 2704.2 2828.0 15336.69
3953.7 3823.1 3224.2 3358.1 17922.28
1351.2 3482.9 2584.7 2731.6 21584.07
1185.3 3347.6 2466.7 2609.0 20246.66
1715.5 3585.4 2928.3 2859.2 4768.047
1536.4 3678.3 3036.4 2900.8 18389.81
1823.1 3801.6 3021.1 3032.3 124.6986
2452.1 4002.1 3237.6 3269.8 1034.273
2076.6 3990.3 3247.1 3206.5 1647.633
2129.2 3436.9 3375.5 3767.099
2502.7 4154.2 3472.8 3387.8 7220.377
2238.7 4322.7 3504.1 3472.0 1028.291
2417.6 4623.1 3357.1 3716.7 129321.2
3838.4 4817.9 4034.7 4065.3 937.7363
1468.6 3450.4 3585.0 18128.14
532666.2



Форма отчета

Варианты

Тарифы на размещение рекламы и характеристики журналов
Название журнала Y, тариф (одна страница цветной рекламы), дол. X 1 , планируемая аудитория, тыс. человек Х 2 , процент мужчин Х 3 , медиана дохода семьи, дол
Audubon 25 315 51,1 38 787
Better Homes & Gardens 198 000 34 797 22,1
Business Week 68,1 63 667
Cosmopolitan 15 452 17,3 44 237
Elle 55 540 12,5 47 211
Entrepreneur 40 355 2 476 60,4 47 579
Esquire 71,3 44 715
Family Circle 147 500 24 539 38 759
first For Women 28 059 3 856 3,6 43 850
Forbes 59 340 68,8 66 606
Fortune 3 891 68,8 58 402
Glamour 85 080 7,8
Goff Digest 6 250 78,9
Good Housekeeping 166 080 25 306 12,6 38 335
Gourmet 49 640 29,6 57 060
Harper"s Bazaar 52 805 2 621 11,5 44 992
Inc. 70 825 66,9
Kiplinger"s Personal Finance 65,1 63 876
Ladies" Home Journal 127 000 6,8
Life 63 750 14 220 46,9
Mademoiselle 55 910
Martha Stewart"s Living 93 328 4 849 16,6
McCalls 7,6 33 823
Money 98 250 60,6
Motor Trend 79 800 5 281 88,5 48 739
National Geographic 44 326
Natural History
Newsweek 148 800 20 720 53,5 53 025
Parents Magazine 72 820 18,2
PC Computing 40 675 57 916
People 125 000 33 668
Popular Mechanics 86,9
Reader"s Digest 42,4 38 060
Redbook 95 785 13 212 8,9 41 156
Rolling Stone 78 920 8 638 59,8 43 212
Runner"s World 36 850 2 078 62,9 60 222
Scientific American 37 500 2 704
Seventeen 71 115 5 738 37 034
Ski 32 480 2 249 64,5 58 629
Smart Money 42 900 2 224 63,4
Smithsonian 73 075 8 253 47,9
Soap Opera Digest 35 070 7 227 10,3
Sports Illustrated 162 000 78,8 45 897
Sunset 56 000 5 276 38,7 52 524
Teen 53 250 3 057 15,4
The New Yorker 62 435 3 223 48,9
Time 162 000 22 798 52,4
True Story 12,2
TV Guide 42,8 37 396
U.S. News & World Report 98 644 9 825 57,5 52 018
Vanity Fair 67 890 4 307 27,7
Vogue 63 900 12,9 44 242
Woman"s Day 137 000 22 747 6,7
Working Woman 87 500 6,3 44 674
YM 73 270 14,4 43 696
Среднее значение 83 534 39,7 47 710
Среднеквадратическое отклонение 25,9 10 225

Контрольные вопросы

Парная регрессия

1. Что понимается под парной регрессией?

2. Какие задачи решаются при построении уравнения регрессии?

3. Какие методы применяются для выбора вида модели регрессии?

4. Какие функции чаще всего используются для построения уравнения пар-

5. ной регрессии?

6. Какой вид имеет система нормальных уравнений метода наименьших

7. квадратов в случае линейной регрессии?

8. Как вычисляется и что показывает индекс детерминации?

9. Как проверяется значимость уравнения регрессии?

10. Как проверяется значимость коэффициентов уравнения регрессии?

11. Понятие доверительного интервала для коэффициентов регрессии.

12. Понятие точечного и интервального прогноза по уравнению линейной регрессии.

13. Как вычисляются и что показывают коэффициент эластичности Э , средний коэффициент эластичности Ý ?

Множественная регрессия

1. Что понимается под множественной регрессией?

2. Чем отличается модель множественной линейной регрессии от модели парной линейной регрессии? Запишите уравнение множественной линейной регрессии.

3. Какие задачи решаются при построении уравнения регрессии?

4. Какие задачи решаются при спецификации модели?

5. Какие требования предъявляются к факторам, включаемым в уравнение регрессии?

6. Что понимается под коллинеарностью факторов?

7. Как проверяется наличие коллинеарности?

8. Какие подходы применяются для преодоления межфакторной корреляции?

9. Какие функции чаще используются для построения уравнения множественной регрессии?

10. По какой формуле вычисляется индекс множественной корреляции?

11. Как вычисляются индекс множественной детерминации?

12. Что такое коэффициент детерминации? Как с его помощью оценивается адекватность модели?

13. Что означает низкое значение коэффициента множественной корреляции?

14. Как проверяется значимость уравнения регрессии и отдельных коэффициентов?

15. Как строятся гипотезы о проверке значимости параметров модели?

16. Как строятся частные уравнения регрессии?

17. Как вычисляются средние частные коэффициенты эластичности?

18. Как строятся доверительные интервалы для параметров модели?

19. Что понимается под гомоскедастичностью ряда остатков?

20. Как проверяется гипотеза о гомоскедастичности ряда остатков?

21. Как называют зависимую переменную в модели?

22. Как называют независимые переменные в модели?

23. Назовите основной метод построения модели.

24. Запишите модель множественной регрессии в общем виде с 3 незав.переменными

25. Запишите сумму квадратов отклонений модели(формула)

26. Что такое RSS?(определение и формула)

27. Как проверить значимость построенной модели в целом?

28. Как проверить значимость коэффициента при переменной X_3?

29. Сфомулируйте экономический смысл коэффициента например при переменно X_5

30. Что такое "короткая модель"множественной регрессии

Литература

1. Шанченко, Н. И.Эконометрика: лабораторный практикум: учебное пособие /Н. И. Шанченко. – Ульяновск: УлГТУ, 2011. – 117 с.

2. Давнис В.В., Тинякова В.И. Компьютерный практикум по эконометрическому моделированию. Воронеж, 2003. - 63 с.


Исходные данные характеризуют цену продажи некоторого товара в отдельные моменты времени. Необходимо построить регрессионную модель динамики изменения данного показателя. Факторы, предположительно оказывающие влияние на данную величину, включают цену продажи товара-субститута, объем продажи товара, объем затрат на рекламу, средние затраты на рекламу.

Цена продажи – зависимая величина, обозначим ее Y.

Факторы, влияющие (предположительно) на величину Y обозначим X i: X 1 – цена товара-субститута, X­ 2 – объем продаж, X­ 3 – объем затрат на рекламу, X­ 4 - средние затраты на рекламу.

Исходные данные

Cтраница 1


Значимость модели для решения конкретных исследовательских задач заключается в том, что она позволяет дать количественную оценку скрытых параметров, отражающих динамику двухпродуктовых систем. При решении таких задач понятия внутреннего (продукта I рода) и внешнего (продукта II рода) могут меняться. Так, в построенной В. М. Глушковым с сотрудниками (1979) модели биосинтеза белка роль продуктов I и II рода играют регуляторные и структурные белки, в модели иммунного ответа - соответственно стволовые клетки и лимфоциты, в модели регуляции сердечных сокращений - вещества, которые доставляются миокардиоцитам соответственно через коронарные сосуды и через аорту.  

Оценка значимости модели дается через / - критерий и / J2 для каждого уравнения в отдельности.  

Предположение о значимости модели основывается на двух положениях.  

Все это не умаляет значимости модели. Естественно, без йот немыслимо сущостжшание музыки.  

Наконец, максимальному ограничению значимости договорной модели как таковой способствовало то, что почти все действовавшие в этой области нормы носили абсолютно обязательный (императивный) характер.  

Применение дисперсионного анализа в дополнение к регрессионному позволяет оценить не только значимость модели в целом, но и значимость частных зависимостей.  

Из приведенных данных также следует, что при разбуривании более твердых пород значимости модели выше. Доказательство значимости полученной модели подтверждает гипотезу о нелинейной зависимости рассматриваемых параметров.  

Несмотря на успехи в развитии теории принятия решений она еще долго, по-видимому, будет находиться на промежуточном месте между искусством - умением принимать решения, присущим данному носителю решений, - и наукой как системой принципов, общих положений, процедур и методов. Однако это не снижает актуальности книги: число систем человек - ЭВМ будет увеличиваться, значение принятий решений в сложных ситуациях будет расти, и человек будет все более затрудняться решать соответствующие задачи старыми (точными и вероятностными) методами. Поэтому значимость моделей, использующих формализованные неопределенности на основе идей, отличных от математики случая, может только увеличиваться.  

При индуктивном подходе, характерном для процесса моделирования в рамках анализа хозяйственной деятельности, модель получается путем обобщения наблюдений по единичным частным фактам, учет которых считается важным для принятия решений. Индуктивным путем разрабатываются модели для решения конкретных проблем управления экономикой. Модели включают в себя учет специфических исторически сформированных свойств моделируемого процесса. Основной проблемой составления индуктивных моделей является выбор из совокупности единичных наблюдений тех, которые определяют сущность принимаемого решения, и представление их структуры и связей в формализованном виде. Значимость индуктивных моделей состоит в том, что путем упрощенного описания взаимосвязей информация, содержащаяся в большой совокупности наблюдений, будет представлена в наглядном и сжатом виде. Качество индуктивных моделей не определяется точностью копирования комплексной реальности путем символических систем, а зависит от того, насколько удается, с одной стороны, так упростить модель, чтобы добиться решения проблемы с приемлемыми затратами, но, с другой стороны, отразить основные свойства реальности.  

Если такого рода трудовые соглашения фиксируют уровень заработной платы, то когда ее рыночный уровень отклоняется от уровня, ожидаемого работниками и работодателями при подписании контракта, тогда и для работников, и для работодателей было бы оптимальным изменить установленную номинальную заработную плату. Следовательно, при том, что условия на рынке труда постоянно изменяются, было бы логичным предположить, что с течением времени подобные трудовые соглашения перестанут существовать. Работники и работодатели придут к тому, что номинальную заработную плату нужно менять каждый день, что приведет к эластичной изменчивости номинальной заработной платы в соответствии с динамикой спроса и предложения на рынке труда. На самом деле подтверждением верности подобной критики служит резкое сокращение деятельности профсоюзов в отраслях США в конце 1970 - х - 1980 - е годы. Конечно же, работники, не состоящие в профсоюзах, часто имеют официальные или неофициальные трудовые соглашения с работодателями, но некоторые экономисты считают, что подобное снижение доли состоящих в профсоюзах является подтверждением снижения значимости модели коллективных договоров для экономики США.  

Проверка значимости модели при помощи теста отношения правдоподобия(тест Вальда), начинается с выдвижения основной гипотезы:

Для проверки данной гипотезы вычисляется выборочная статистика

Здесь lnL величина максимального значения логарифма функции правдоподобия, а lnL0- величина логарифма функции правдоподобия в случае справедливости основной гипотезы.

Если основная гипотеза верна, то выборочная статистика (4.7.1) распределена по закону 2 с (m-1) степенью свободы. Границу правосторонней критической области К2 ищут по таблицам критических точек хи-квадрат по уровню значимости (1-б) и (m-1) степени свободы. Если выполняется неравенство:

то основную гипотезу отвергают, принимают альтернативную гипотезу и говорят, что модель статистически значима. В противном случае принимают гипотезу о не значимости модели и переходят к ее пересмотру.

Для моделей бинарного выбора, значимость факторов проверяется при помощи тестирования для каждого фактора хi, i=1,…, (m-1) гипотез вида:

Выборочные статистики, которые используются для тестирования этих гипотез, имеют асимптотически нормальное распределение и называются z-статистиками. Границу двусторонней критической области ищут по таблицам Лапласа по заданному уровню значимости (1-б).

Если выполняется неравенство:

К 1

то принимают основную гипотезу о незначимом отличии от нуля коэффициента i и делают вывод, что соответствующий ему фактор незначим для модели.

Для моделей бинарного выбора не определяется понятие коэффициента детерминации. Однако для них определяют так называемый псевдо коэффициент детерминации, который уже не характеризует объясняющую силу модели

Определение 4.7.1. Псевдо - коэффициентом детерминации называют следующую величину:

Определение 4.7.2. Индексом отношения правдоподобия Макфаддена (McFadden) называют характеристику:

Следует подчеркнуть, что если параметры модели бинарного выбора незначимо отличаются от нуля, то оба введенных коэффициента равны нулю.

На лекции мы рассмотрели нелинейные регрессионные модели, в частности, модели для бинарной зависимой переменной. Эти модели мы рассмотрели для двух функций регрессий: логит (использовали логистическую функцию) и пробит (использовали функцию распределения стандартного нормального закона распределения). Оценки параметров таких функций регрессии получают при помощи метода максимального правдоподобия. Модель тестируют при помощи теста Вальда, в основе которого статистика, имеющая хи-квадрат распределение. При изучении многофакторных регрессионных моделей мы интерпретировали оценки параметров вj, как предельный эффект влияния независимых переменных на у. Вернемся к моделям бинарного выбора. Если мы попытаемся найти производную от P{Y=1|X}, то придем к следующему выражению:

где Z= 0+1х1+...m-1xm-1.

По теореме о производной сложной функции, и из свойства плотности (производная от функции распределения это плотность распределения f(Z)), получаем:

или, используя второе обозначение для оценок параметров:

P{Y=1|X}=вjf(Z)

Как и раньше, через вj обозначены оценки неизвестных параметров.

Тогда, мы можем рассуждать следующим образом: плотность распределения всегда неотрицательна, поэтому знак производной

будет зависеть только от знака оценки параметров, но будет являться функцией всех независимых переменных. Причем, если оценка параметра будет положительной, то увеличение переменной xj будет приводить к увеличению вероятности

а если оценка параметра будет отрицательной, то, соответственно, к уменьшению указанной вероятности.

Замечание. Если фактор х является бинарной переменной, то для него нельзя ввести понятие предельного эффекта.

Для каждой переменной х (количественной!!!) вводят так называемый средний предельный эффект. Для этого вычисляют выборочные средние для количественных переменных и процент «1» для бинарных, и подставляют их в выражение для плотности распределения вместо переменных.

Еще один вопрос для обсуждения: как после оценивания параметров логит (пробит) модели прогнозировать значение у? Поступают, например, следующим образом. Подставляют найденные значения оценок параметров и значения хj в Z и вычисляют значение переменной. Если Z>0, то считают, что У=1, если Z<0, то считают, что У=0. Замечание. Мы рассмотрели ситуацию, когда переменная у была измерена в номинальной шкале, но принимала всего два значения: 0 и 1. В общем случае, когда у может принимать несколько значений, например 0, 1, 2, 3, используют множественный (по у!!) логит или пробит. Кроме того, у может быть измерен в порядковой шкале, тогда в Стате используют порядковый логит (пробит) ologit (oprobit).

Замечание. Очень часто в исследованиях приходится проводить исследования на усеченной выборке. Например, если изучают доходы домохозяйств, то бывают ситуацию, когда респондентов с очень большим доходом (например, больше 1 млн.рубл.) следует исключить из исследования, то есть

То в таких случаях используют Тобит-модели.

F(0+1х1+...m-1xm-1)

F(0+1х1+...m-1xm-1)

F(0+1х1+...m-1xm-1)

F(0+1х1+...m-1xm-1) - (F(0+1х1+...m-1xm-1))2

Построенных на основе уравнений регрессии , начинается с проверки значимости каждого коэффициента регрессии с помощью Г-критерия Стьюдента  

Можно показать, что для парной линейной модели оба способа проверки значимости с использованием F- и /-критериев равносильны, ибо эти критерии связаны соотношением F = /2.  

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии , которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии . Этой цели, как уже указывалось, служит и применение обобщенного метода наименьших квадратов , к рассмотрению которого мы и переходим в п. 3.11.  

Предложенные методы информационного моделирования технологических цепей и операций, реализованные в соответствующих методиках, не отличаются по форме от корреляционно-регрессионного анализа . Расчет и обоснование моделей проходят по классической схеме решение систем уравнений, оценка значимости коэффициентов, проверка идентичности модели. Типичными являются и задачи, решаемые с помощью моделей оценка взаимосвязей между параметрами ТП, выявление параметров, обладающих наибольшей нормативностью или влиятельностью на другие параметры, возможность расчета межоперационных допусков. Однако с позиций управления технологическими процессами информационные модели более просты, лаконичны и, следовательно, более приемлемы для целей управления.  

Нам необходимо решить, будет ли проверка значимости "односторонней" или "двусторонней". Это решение должно быть принято еще до того, как станут известны результаты рефессии. Выбор определяется теоретическим обоснованием модели связи X и Y, проверяемой с помощью рефессии.  

Проверка значимости скорректированного Л2 - это также проверка значимости связи между зависимой переменной Y и любой из независимых переменных X,-. Действительно, если регрессионная модель имеет высокую степень предоставления объяснения формирования взаимосвязи, изменение зависимой переменной происходит из-за изменений независимых переменных , и суммы квадратов отклонений , объясняемые регрессией (СКР) будут относительно больше остаточной суммы квадратов отклонений (СКО). Если же модель имеет низкую степень предоставления объяснения, изменение зависимой переменной происходит из-за изменения значения ошибки, и СКО будет относительно больше СКР.  

Для проверки значимости (пригодности) полученного уравнения регрессии применяют специальные приемы. Такую проверку называют проверкой адекватности модели.  

Объяснить природу и методы двумерного регрессионного анализа и описать модель, процедуры оценки параметров , нормирование коэффициента регрессии , проверки значимости, процедуру определения точности прогноза, анализ остатков и перекрестную проверку модели.  

Hi) В попытке устранить до некоторой степени недостатки, описанные в пунктах (i) и (it), мы можем разработать модель прогнозирования исходя из усеченного набора имеющихся исторических данных. Например, если у нас есть показатели объема продаж за период с 1990 по 1997 гг., мы можем выработать модель на основе значений только за 1990-1996 гг. Остальные показатели, т. е. показатели за 1997 г., можно использовать для сравнения с прогнозными показателями, полученными с помощью этой модели. Такого рода проверка более реалистична, так как она фактически моделирует прогнозную ситуацию. Недостаток этого метода состоит в том, что самые последние, а следовательно, и наиболее значимые показатели исключены из процесса формирования исходной модели.  

Можно продолжить этот перечень, мы только привели некоторые из возможных факторов. После анализа и проверки существенности всех факторов отбираются наиболее значимые, которые и должны войти в состав многофакторной корреляционной экономико-математической модели определения потребности в машинах напольного безрельсового электротранспорта. Применение такого метода расчета представляется в данном случае наиболее целесообразным. При долгосрочном прогнозировании следует также учитывать факторы научно-технического прогресса , методика определения и учета которых широко изложена в .  

Проверка выдвинутых гипотез дала значительное количество интересных и противоречивых результатов, которые часто указывали на наличие связей, обратных предсказанным. Регрессионная модель показывает все связи, которые проявили себя как достаточно значимые по отношению к основной зависимой переменной , т.е. использованию методов активного трансфера технологий.  

Самое важное решение, которое должен принять аналитик, - это выбор совокупности переменных для описания моделируемого процесса. Чтобы представить себе возможные связи между разными переменными, нужно хорошо понимать существо задачи. В этой связи очень полезно будет побеседовать с опытным специалистом в данной предметной области . Относительно выбранных вами переменных нужно понимать, значимы ли они сами по себе, или же в них всего лишь отражаются другие, действительно, существенные переменные . Проверка на значимость включает в себя кросс-корреляционный анализ . С его помощью можно, например, выявить временную связь типа запаздывания (лаг) между двумя рядами. То, насколько явление может быть описано линейной моделью , проверяется с помощью регрессии по методу наименьших квадратов (OLS). Полученная после оптимизации невязка R может принимать значения от 0 (полное несоответствие) до 1 (точное соответствие). Часто бывает так, что для линейных систем OLS-метод дает такие результа-  

В целом, можно сказать, что предварительная обработка через формирование совокупности переменных и проверку их значимости существенно улучшает качество модели . Если никаких теоретических методов проверки в распоряжении нет, переменные можно выбирать методом проб и ошибок, или с помощью формальных методов типа генетических алгоритмов , .  

Другим известным приемом является вычеркивание связей в чрезмерно связанном графе с целью изучения поведения системы и ее элементов в новых условиях. Устойчивость системы может означать верность гипотезы. Решение об уничтожении той или иной связи модели может быть принято или на основании критерия статистической значимости, или на основании произвольно установленного порогового критерия величины коэффициента причинного влияния. Проверкой правильности гипотез и корректности модели должно служить ее подтверждение при испытаниях на контрольных данных.  

Как показывает рис. 6.3, в случае вероятностных моделей расчет коэффициентов регрессии с использованием выражений (6.7) и (6.8) дает одну оценку величины Y, т.е. E(Yt). Оценки коэффициентов регрессии также предположительно нормально распределены. Нам нужно знать, статистическую значимость этих коэффициентов. Данная задача решается проверкой того, что коэффициенты регрессии значимо отличаются от нуля.  

Из анализа Калдора в его статье Модель экономического роста кажется очевидным, что он (в первом приближении) трактует sw и Sp как константы в течение длительных промежутков времени. Конечно, возможно, что теория Калдора могла бы быть эмпирически значимой, даже когда sp и s изменяются часто. В этом случае проверка теории будет заключаться в наблюдении за динамикой ковариации sp/sw и I/Y. Однако у нас нет наблюдений за sp и sw в различные моменты времени, и поэтому, если теория проверяется на временных рядах , необходимо допускать постоянство sw и sp. Конечно, возможно также, что когда соответствующие данные станут доступными, эта теория сможет быть полезной в объяснении международных или межрегиональных изменений в относительных долях, независимо от временных колебаний sp и s ,.  

Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы , получаемые при стандартных проверках качества оценок , могут быть ошибочными и приводить к неверным заключениям по построенной модели . Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющимися.  

В целом, говоря о разделении временного интервала на части, отметим, что оно необходимо в тех случаях, когда значения параметров а, менялись во времени (что нарушало предпосылку модели линейной регрессии об их неизменности). Если изменялись они более или менее скачкообразно, то, разделяя временной интервал моментами таких "скачков", можно разбить его на несколько интервалов, на каждом из которых предпосылки модели выполнялись Для проверки статистической значимости различия коэффи-  

Довольно часто гипотеза конвергенции неоклассической модели роста тестируется на примере регионов одной страны. Несмотря на то что возможно наличие расхождений между регионами по уровню развития технологий, предпочтений, и т.д., данные различия будут существенно менее значимыми, чем различия между странами. Поэтому вероятность наличия абсолютной конвергенции между регионами существенно выше, нежели между странами. Вместе с тем при использовании регионов для проверки гипотезы абсолютной сходимости нарушается важная предпосылка неоклассической модели роста - закрытость экономики . Очевидно, что культурные, лингвистические, институциональные и формальные барьеры для перемещения факторов оказываются менее значимыми для группы регионов одной страны. Однако показано, что даже в случае мобильности факторов и, таким образом, нарушения предпосылок исходной модели динамические свойства закрытой экономики и экономики со свободным  

Оцененные коэффициенты статистически значимы, коэффициент детерминации высокий, проверка на адекватность не выявляет нарушений стандартных предположений классической линейной модели регрессии.  

Следует отметить не совсем удачный перевод на русский язык термина dummy variables как фиктивная переменная . Во-первых, в модели регрессионного анализа мы уже имеем фиктивную переменную X при коэффициенте Ро> всегда равную единице. Во-вторых, и это главное - все процедуры регрессионного анализа (оценка параметров регрессионной модели , проверка значимости ее коэффициентов и т. п.) проводятся при включении фиктивных переменных так же, как и обычных, количественных объясняющих переменных. Фиктивность же переменных 2/ состоит только в том, что они количественным образом описывают качественный признак.  

Кроме проверки значимости всей модели, необходимо провести проверки значимости коэффициентов регрессии по /-критерию Стюдента. Минимальное значение коэффициента регрессии Ьг должно соответствовать условию bifob- t, где bi - значение коэффициента уравнения регрессии в натуральном масштабе при i-ц факторном признаке аь. - средняя квадратическая ошибка каждого коэффициента.  

Вернемся к общему (негауссовскому) случаю. Практика многомерного статистического анализа показала, что частные коэффициенты корреляции , определенные соотношениями (1.22) - (1.23), являются, как правило, удовлетворительными измерителями очищенной линейной связи между х(1) и при фиксированных значениях остальных переменных и в случае, когда распределение анализируемых показателей ((0), x(l . .., х(р>) отличается от нормального. Определив с помощью формулы (1.22) частный коэффициент корреляции в случае любого исходного распределения признаков (х(0 х(1 . .., х(р)), включим его в общий математический инструментарий корреляционного анализа линейных моделей . При этом их можно интерпретировать как показатели тесноты очищенной связи, усредненные по всевозможным значениям фиксируемых на определенных уровнях мешающих переменных. 1.2.3. Статистические свойства выборочных частных коэффициентов корреляции (проверка на статистическую значимость их отличия от нуля, доверительные интервалы). При исследовании статистических свойств выборочного частного коэффициента корреляции порядка k (т. е. при исключении опосредованного влияния k мешающих переменных) следует воспользоваться тем (см., например, ), что он распределен точно так же, как и обычный (парный) выборочный коэффициент корреляции между теми же переменными с единственной поправкой объем выборки надо уменьшить на k единиц, т. е. полагать его равным п - , а не я. Поэтому  

Для probit- или /опроверка гипотез о наличии ограничений на коэффициенты, в частности, гипотез о значимости одного или группы коэффициентов, может проводиться с помощью любого из трех тестов - Вальда, отношения правдоподобия , множителей Лагранжа , рассмотренных в главе 10 (п. 10.6). Большинство эконометрических пакетов, в которых реализованы probit- или /о

Пусть мы приступаем к эксперименту, полагая, что адекватна модель , содержащая только k главных эффектов , или, в терминологии регрессионного анализа , мы имеем модель первого порядка. Если взять насыщенный план разрешения III, то можно точно подогнать модель, но нельзя проверить ее адекватность. Однако, если (k + 1) не кратно четырем, план разрешения III будет не насыщенным, или, если все же (k + 1) кратно четырем, можно взять план разрешения IV. В обоих случаях мы сможем оценить несколько (смешанных) первых взаимодействий. Далее, если одна или несколько экспериментальных точек дублировалось, мы независимо оценим а2 и сможем проверить значимость наших парных взаимодействий. Пусть одни взаимодействия окажутся значимыми, а другие- - нет. Тогда может иметь смысл взять модель со всеми взаимодействиями. Несмотря на то что некоторые взаимодействия незначимы, их несмещенные МНК-оценки с минимальной дисперсией не равны нулю (хотя и малы). Так, если все факторы количественные , мы можем взять полином второго порядка (со всеми парными взаимодействиями плюс полные квадраты) вместо модели первого порядка. Сравните также с обсуждением в и в , где рассмотрена практика проверки отдельных параметров. Итак, вместо раздельной проверки эффектов мы можем получить их общую (объединенную) сумму квадратов и сравнить ее средний квадрат с независимой оценкой сг2.20  

Если мы отбрасываем гипотезу о корректности нашей модели, то обычно переходим к модели более высокого порядка 21. Это приводит к последовательному планированию . Мы можем начать с плана из очень малого числа опытов. Затем мы увидим, что планы разрешения III годятся для изучения k факторов всего в N = k + 1 опытах, если N кратно четырем, иначе мы возьмем следующий план с Nlt кратным четырем. Если АГ не" кратно четырем или же если есть некоторые дополнительные опыты, то мы можем проверить, адекватна ли модель первого порядка. Для этого мы можем подсчитать некоторые суммы квадратов взаимодействий или остаточную сумму квадратов . При наличии независимой оценки а2 (из параллельных или предварительных опытов) можно воспользоваться /""-критерием. А если взаимодействия окажутся значимыми, то мы можем перейти к плану разрешения IV. f K счастью, мы видим, что построить план разрешения IV из плана разрешения III не представляет никакого труда. Мы просто должны повторить план разрешения III с обратными знаками, т. е. помимо Ыг опытов плана22 разрешения III, которые мы уже провели, мы берем еще NI опытов. По определению, план разрешения IV дает оценки главных эффектов , которые не смешаны с парными взаимодействиями. Поэтому из плана разрешения IV мы можем надежно заключить, есть ли у какого-либо фактора главный эффект (при условии, что нет взаимодействий трех и более факторов это условие можно проверить при проверке адекватности по плану разрешения IV). Если предположить, что те факторы, у которых нет главных эффектов , не имеют и взаимодействий, то вполне возможно, что на основании плана разрешения IV мы исключим некоторые факторы. Иметь меньше факторов это значит, что сокращается число опытов, необходимых для эксперимента (ср. с табл. 8). Оставшиеся факторы можно изучить в плане разрешения V.  

Напомним (см. разд. 1.4. Главы 1), что поскольку логит-модель является нелинейной моделью , то оцененные коэффициенты имеют интерпретацию, отличающуюся от интерпретации коэффициентов в линейной модели . В связи с этим, в третьем столбце табл. 1 приведены значения предельного эффекта для переменных со статистически значимыми оценками коэффициентов, вычисленные при средних значениях объясняющих переменных на рассмотренном периоде. Так, значение 0.060 предельного эффекта для дамми переменной end of period означает, что если аукцион проводится в конце периода между проверками выполнения требований в отношении резервов, то (при неизменных значениях остальных объясняющих переменных) шансы за то, что банк примет участие в аукционе, против того, что банк не примет участие в аукционе, возрастают в среднем приблизительно на 6%.  

7.1. Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессионный анализ позволяет установить функциональную зависимость между некоторой случайной величиной Y и некоторыми влияющими на Y величинами X . Такая зависимость получила название уравнения регрессии. Различают простую (y=m*x+b ) и множественную (y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b ) регрессию линейного и нелинейного типа.
Для оценки степени связи между величинами используется коэффициент множественной корреляции R Пирсона (корреляционное отношение), который может принимать значения от 0 до 1. R =0, если между величинами нет никакой связи, и R =1, если между величинами имеется функциональная связь. В большинстве случаев R принимает промежуточные значения от 0 до 1. Величина R 2 называется коэффициентом детерминации .
Задачей построения регрессионной зависимости является нахождение вектора коэффициентов M модели множественной линейной регрессии, при котором коэффициент R принимает максимальное значение.
Для оценки значимости R применяется F-критерий Фишера , вычисляемый по формуле:

Где n – количество экспериментов; k – число коэффициентов модели. Если F превышает некоторое критическое значение для данных n и k и принятой доверительной вероятности, то величина R считается существенной.

7.2. Инструмент Регрессия из Пакета анализа позволяет вычислить следующие данные:

· коэффициенты линейной функции регрессии – методом наименьших квадратов; вид функции регрессии определяется структурой исходных данных;

· коэффициент детерминации и связанные с ним величины (таблица Регрессионная статистика );

· дисперсионную таблицу и критериальную статистику для проверки значимости регрессии (таблица Дисперсионный анализ );

· среднеквадратическое отклонение и другие его статистические характеристики для каждого коэффициента регрессии , позволяющие проверить значимость этого коэффициента и построить для него доверительные интервалы;

· значения функции регрессии и остатки – разности между исходными значениями переменной Y и вычисленными значениями функции регрессии (таблица Вывод остатка );

· вероятности, соответствующие упорядоченным по возрастанию значениям переменной Y (таблица Вывод вероятности ).

7.3. Вызовите инструмент создания выборки через Данные> Анализ данных> Регрессия .

7.4. В поле Входной интервал Y вводится адрес диапазона, содержащего значения зависимой переменной Y. Диапазон должен состоять из одного столбца.
В поле Входной интервал X вводится адрес диапазона, содержащего значения переменной X. Диапазон должен состоять из одного или нескольких столбцов, но не более чем из 16 столбцов. Если указанные в полях Входной интервал Y и Входной интервал X диапазоны включают заголовки столбцов, то необходимо установить флажок опции Метки – эти заголовки будут использованы в выходных таблицах, сгенерированных инструментом Регрессия .
Флажок опции Константа - ноль следует установить, если в уравнении регрессии константа b принудительно полагается равной нулю.
Опция Уровень надежности устанавливается тогда, когда необходимо построить доверительные интервалы для коэффициентов регрессии с доверительным уровнем, отличным от 0.95, который используется по умолчанию. После установки флажка опции Уровень надежности становится доступным поле ввода, в котором вводится новое значение доверительного уровня.
В области Остатки имеются четыре опции: Остатки , Стандартизованные остатки , График остатков и График подбора . Если установлена хотя бы одна из них, то в выходных результатах появится таблица Вывод остатка , в которой будут выведены значения функции регрессии и остатки – разности между исходными значениями переменной Y и вычисленными значениями функции регрессии. В области Нормальная вероятность имеется одна опция – ; ее установка порождает в выходных результатах таблицу Вывод вероятности и приводит к построению соответствующего графика.


7.5. Установите параметры в соответствии с рисунком. Проверьте, что в качестве величины Y указана первая переменная (включая ячейку с названием), и в качестве величины X указаны две остальные переменные (включая ячейки с названиями). Нажмите OK .

7.6. В таблице Регрессионная статистика приводятся следующие данные.

Множественный R – корень из коэффициента детерминации R 2 , приведенного в следующей строке. Другое название этого показателя – индекс корреляции, или множественный коэффициент корреляции.

R-квадрат – коэффициент детерминации R 2 ; вычисляется как отношение регрессионной суммы квадратов (ячейка С12) к полной сумме квадратов (ячейка С14).

Нормированный R-квадрат вычисляется по формуле

где n – количество значений переменной Y, k – количество столбцов во входном интервале переменной X.

Стандартная ошибка – корень из остаточной дисперсии (ячейка D13).

Наблюдения – количество значений переменной Y.

7.7. В Дисперсионной таблице в столбце SS приводятся суммы квадратов, в столбце df – число степеней свободы. в столбце MS – дисперсии. В строке Регрессия в столбце f вычислено значение критериальной статистики для проверки значимости регрессии. Это значение вычисляется как отношение регрессионной дисперсии к остаточной (ячейки D12 и D13). В столбце Значимость F вычисляется вероятность полученного значения критериальной статистики. Если эта вероятность меньше, например, 0.05 (заданного уровня значимости), то гипотеза о незначимости регрессии (т.е. гипотеза о том, что все коэффициенты функции регрессии равны нулю) отвергается и считается, что регрессия значима. В данном примере регрессия незначима.

7.8. В следующей таблице, в столбце Коэффициенты , записаны вычисленные значения коэффициентов функции регрессии, при этом в строке Y-пересечение записано значение свободного члена b . В столбце Стандартная ошибка вычислены среднеквадратические отклонения коэффициентов.
В столбце t-статистика записаны отношения значений коэффициентов к их среднеквадратическим отклонениям. Это значения критериальных статистик для проверки гипотез о значимости коэффициентов регрессии.
В столбце P-Значение вычисляются уровни значимости, соответствующие значениям критериальных статистик. Если вычисленный уровень значимости меньше заданного уровня значимости (например, 0.05). то принимается гипотеза о значимом отличии коэффициента от нуля; в противном случае принимается гипотеза о незначимом отличии коэффициента от нуля. В данном примере только коэффициент b значимо отличается от нуля, остальные – незначимо.
В столбцах Нижние 95% и Верхние 95% приводятся границы доверительных интервалов с доверительным уровнем 0.95. Эти границы вычисляются по формулам
Нижние 95% = Коэффициент - Стандартная ошибка * t α ;
Верхние 95% = Коэффициент + Стандартная ошибка * t α .
Здесь t α – квантиль порядка α распределения Стьюдента с (n-k-1) степенью свободы. В данном случае α = 0.95. Аналогично вычисляются границы доверительных интервалов в столбцах Нижние 90.0% и Верхние 90.0% .

7.9. Рассмотрим таблицу Вывод остатка из выходных результатов. Эта таблица появляется в выходных результатах только тогда, когда установлена хотя бы одна опция в области Остатки диалогового окна Регрессия .

В столбце Наблюдение приводятся порядковые номера значений переменной Y .
В столбце Предсказанное Y вычисляются значения функции регрессии у i = f(х i) для тех значений переменной X , которым соответствует порядковый номер i в столбце Наблюдение .
В столбце Остатки содержатся разности (остатки) ε i =Y-у i , а в столбце Стандартные остатки – нормированные остатки, которые вычисляются как отношения ε i / s ε . где s ε – среднеквадратическое отклонение остатков. Квадрат величины s ε вычисляется по формуле

где – среднее остатков. Величину можно вычислить как отношение двух значений из дисперсионной таблицы: суммы квадратов остатков (ячейка С13) и степени свободы из строки Итого (ячейка В14).

7.10. По значениям таблицы Вывод остатка строятся два типа графиков: графики остатков и графики подбора (если установлены соответствующие опции в области Остатки диалогового окна Регрессия ). Они строятся для каждого компонента переменной X в отдельности.

На графиках остатков отображаются остатки, т.е. разности между исходными значениями Y и вычисленными по функции регрессии для каждого значения компонента переменной X .

На графиках подбора отображаются как исходные значения Y, так и вычисленные значения функции регрессии для каждого значения компонента переменной X .

7.11. Последней таблицей выходных результатов является таблица Вывод вероятности . Она появляется, если в диалоговом окне Регрессия установлена опция График нормальной вероятности .
Значения в столбце Персентиль вычисляются следующим образом. Вычисляется шаг h = (1/n)*100% , первое значение равно h/2 , последнее равно 100-h/2 . Начиная со второго значения каждое последующее значение равно предыдущему, к которому прибавлен шаг h .
В столбце Y приведены значения переменной Y , упорядоченные по возрастанию. По данным этой таблицы строится так называемый график нормального распределения . Он позволяет визуально оценить степень линейности зависимости между переменными X и Y .


8. Дисперсионный анализ

8.1. Пакет анализа позволяет провести три вида дисперсионного анализа. Выбор конкретного инструмента определяется числом факторов и числом выборок в исследуемой совокупности данных.
используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности.
Двухфакторный дисперсионный анализ с повторениями представляет собой более сложный вариант однофакторного анализа, включающий более чем одну выборку для каждой группы данных.
Двухфакторный дисперсионный анализ без повторения представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Он используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности).

8.2. Однофакторный дисперсионный анализ

8.2.1. Подготовим данные для анализа. Создайте новый лист и скопируйте на него колонки A, B, C, D . Удалите первые две строки. Подготовленные данные можно использовать для проведения Однофакторного дисперсионного анализа.

8.2.2. Вызовите инструмент создания выборки через Данные> Анализ данных> Однофакторный дисперсионный анализ. Заполните в соответствии с рисунком. Нажмите OK .

8.2.3. Рассмотрим таблицу Итоги : Счет – число повторений, Сумма – сумма значений показателя по строкам, Дисперсия – частная дисперсия показателя.

8.2.4. Таблица Дисперсионный анализ : первая колонка Источник вариации содержит наименование дисперсий, SS – сумма квадратов отклонений, df – степень свободы, MS средний квадрат, F-критерий фактического F распределения. P-значение – вероятность того, что дисперсия, воспроизводимая уравнением, равна дисперсии остатков. Оно устанавливает вероятность того, что полученная количественная определенность взаимосвязи между факторами и результатом может считаться случайной. F-критическое – это значение F теоретического, которое впоследствии сравнивается с F фактическим.

8.2.5. Нулевая гипотеза о равенстве математических ожиданий всех выборок принимается, если выполняется неравенство F-критерий < F-критическое . эту гипотезу следует отвергнуть. В данном случае средние значения выборок – значимо различаются.