Расчет прогнозного значения по уравнению регрессии. Интервалы прогноза по линейному уравнению регрессии
Оценка статистической значимости параметров регрессии проводится с помощью t-статистики Стьюдента и путем расчета доверительного интервала для каждого из показателей. Выдвигается гипотеза Н 0 о статистически значимом отличие показателей от 0 a = b = r = 0. Рассчитываются стандартные ошибки параметров a,b, r и фактическое значение t-критерия Стьюдента.
Определяется статистическая значимость параметров.
t a > T табл - параметр a статистически значим.
t b > T табл - параметр b статистически значим.
Находятся границы доверительных интервалов.
Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что параметры a и b находясь в указанных границах не принимают нулевых значений, т.е. не является статистически незначимыми и существенно отличается от 0. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. - М.: Дело, 2001. - С. 45.
Нелинейная регрессия
Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: например, равносторонней гиперболы, параболы второй степени и д.р.
Различают два класса нелинейных регрессий:
- - регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
- - регрессии, нелинейные по оцениваемым параметрам.
Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции:
полиномы разных степеней;
равносторонняя гипербола.
К нелинейным регрессиям по оцениваемым параметрам относятся функции:
степенная;
показательная;
экспоненциальная.
Нелинейная регрессия по включенным переменным не таит каких-либо сложностей в оценке ее параметров. Она определяется, как и в линейной регрессии, методом наименьших квадратов (МНК), ибо эти функции линейны по параметрам. Так, в параболе второй степени y=a 0 +a 1 x+a 2 x 2 +е заменяя переменные x=x 1 ,x 2 =x 2 , получим двухфакторное уравнение линейной регрессии: у=а 0 +а 1 х 1 +а 2 х 2 + е.
Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное (или минимальное), значение результативного признака: приравниваем к нулю первую производную параболы второй степени: , т.е. b+2cx=0 и x=-b/2c.
Применение МНК для оценки параметров параболы второй степени приводит к следующей системе нормальных уравнений:
Решение ее возможно методом определителей:
В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Если в линейной модели и моделях, нелинейных по переменным, при оценке параметров исходят из критерия min, то в моделях, нелинейных по оцениваемым параметрам, требование МНК применяется не к исходным данным результативного признака, а к их преобразованным величинам, т.е. ln y, 1/y. Так, в степенной функции МНК применяется к преобразованному уравнению lny = lnб + в ln x ln е. Это значит, что оценка параметров основывается на минимизации суммы квадратов отклонений в логарифмах. Соответственно если в линейных моделях то в моделях, нелинейных по оцениваемым параметрам, . Вследствие этого оценка параметров оказываются несколько смещенной.
Уравнение нелинейной регрессии, так же как и в линейной зависимости, дополняется показателем корреляции, а именно индексом корреляции (R):
Величина данного показателя находится в границах: 0 ? R ? 1, чем ближе к 1, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.
Индекс детерминации используется для проверки существенности в целом урпвнения нелинейной регрессии по F- критерию Фишера:
Данный способ расчета наиболее обоснован теоретически и дает самые точные результаты в практическом применении. Но дело осложняется рядом обстоятельств. Во-первых, качество большинства видов продукции, а, следовательно, и его уровень формируются чаще не одним, а несколькими свойствами, причем значимость их в формировании полезности различна. Встает сложная проблема определения их значимости. Во-вторых, полезность продукта находится чаще в нелинейной зависимости от значения свойств (частных качественных характеристик), а это означает непостоянство их значимости. Указанные сложности преодолимы, но не всегда.
Теснота связи между переменными величинами может иметь различные значения, если рассматривать ее с позиции характера зависимости (линейная, нелинейная). Если установлена слабая связь между переменными в линейной зависимости, то это совсем не означает, что такая связь должна быть в нелинейной зависимости. Показателем, характеризующим значимость факторов при различной форме связи, является корреляционное отношение. Оценка факторов по корреляционному отношению уже на этом этапе анализа позволяет предварительно уст0новить вид многофакторной связи, что служит хорошей предпосылкой при выборе конкретной модели исследуемого показателя.
В случае нелинейной зависимости линейный коэффициент корреляции теряет смысл, и для измерения тесноты связи применяют так называемое корреляционное отношение, известное также под названием «индекс корреляции»:
Для нахождения лучшей подстановки можно использовать визуальный метод, когда «на глаз» определяется вид нелинейной зависимости, связывающей результирующий параметр и независимый фактор, а можно выбор наилучшей замены осуществлять, используя коэффициент корреляции. Та подстановка, у которой коэффициент корреляции является максимальным, и является наилучшей. Ланге О. Введение в эконометрику. - М.: Прогресс, 1964. - С. 76.
Линейная регрессия является наиболее часто используемым видом регрессионного анализа. Ниже перечислены три основные задачи, решаемые в маркетинговых исследованиях при помощи линейного регрессионного анализа.
1. Определение того, какие частные параметры продукта оказывают влияние на общее впечатление потребителей от данного продукта. Установление направления и силы данного влияния. Расчет, каким будет значение результирующего параметра при тех или иных значениях частных параметров. Например, требуется установить, как влияет возраст респондента и его среднемесячный доход на частоту покупок глазированных сырков.
2. Выявление того, какие частные характеристики продукта влияют на общее впечатление потребителей от данного продукта (построение схемы выбора продукта потребителями). Установление соотношения между различными частными параметрами по силе и направлению влияния на общее впечатление. Например, имеются оценки респондентами двух характеристик мебели производителя X - цены и качества, - а также общая оценка мебели данного производителя. Требуется установить, какой из двух параметров является наиболее значимым для покупателей при выборе производителя мебели и в каком конкретном соотношении находится значимость для покупателей данных двух факторов (параметр Цена в х раз более значим для покупателей при выборе мебели, чем параметр Качество).
3. Графическое прогнозирование поведения одной переменной в зависимости от изменения другой (используется только для двух переменных). Как правило, целью проведения регрессионного анализа в данном случае является не столько расчет уравнения, сколько построение тренда (то есть аппроксимирующей кривой, графически показывающей зависимость между переменными). По полученному уравнению можно предсказать, каким будет значение одной переменной при изменении (увеличении или уменьшении) другой. Например, требуется установить характер зависимости между долей респондентов, осведомленных о различных марках глазированных сырков, и долей респондентов, покупающих данные марки. Также требуется рассчитать, насколько возрастет доля покупателей сырков марки х при увеличении потребительской осведомленности на 10 % (в результате проведения рекламной кампании).
В зависимости от типа решаемой задачи выбирается вид линейного регрессионного анализа. В большинстве случаев (1 и 2) применяется множественная линейная регрессия, в которой исследуется влияние нескольких независимых переменных на одну зависимую. В случае 3 применима только простая линейная регрессия, в которой участвуют только одна независимая и одна зависимая переменные. Это связано с тем, что основным результатом анализа в случае 3 является линия тренда, которая может быть логически интерпретирована только в двухмерном пространстве. В общем случае результатом проведения регрессионного анализа является построение уравнения регрессии вида: у = а + Ь, х, + Ь2х2 + ... + Ь„хп, позволяющего рассчитать значение зависимой переменной при различных значениях независимых переменных.
В табл. 4.6 представлены основные характеристики переменных, участвующих в анализе.
Таблица 4.6. Основные характеристики переменных, участвующих в линейном регрессионном анализе
В связи с тем что и множественная и простая регрессии строятся в SPSS одинаковым способом, рассмотрим общий случай множественной линейной регрессии как наиболее полно раскрывающий суть описываемого статистического метода. Давайте рассмотрим, как построить линию тренда с целью статистического прогнозирования.
Исходные данные:
В ходе опроса респондентов, летающих одним из трех классов (первым, бизнес - или эконом-классом), просили оценить по пятибалльной шкале - от 1 (очень плохо) до 5 (отлично) - следующие характеристики сервиса на борту самолетов авиакомпании X: комфортабельность салона, работа бортпроводников, питание во время полета, цена билетов, спиртные напитки, дорожные наборы, аудиопрограммы, видеопрограммы и пресса. Также респондентам предлагалось поставить общую (итоговую) оценку обслуживания на борту самолетов данной авиакомпании.
Для каждого класса полета требуется:
1) Выявить наиболее значимые для респондентов параметры обслуживания на борту.
2) Установить, какое влияние оказывают оценки частных параметров обслуживания на борту на общее впечатление авиапассажиров от полета.
Откройте диалоговое окно Linear Regression при помощи меню Analyze Regression Linear. Из левого списка выберите зависимую переменную для анализа. Это будет Общая оценка сервиса на борту. Поместите ее в область Dependent. Далее в левом списке выберите независимые переменные для анализа: частные параметры сервиса на борту - и поместите их в область Independent(s).
Существует несколько методов проведения регрессионного анализа: enter, stepwise, forward и backward. He вдаваясь в статистические тонкости, проведем регрессионный анализ посредством пошагового метода backward как наиболее универсального и релевантного для всех примеров из маркетинговых исследований.
Так как задача анализа содержит требование провести регрессионный анализ в разрезе трех классов полета, выберите в левом списке переменную, обозначающую класс (q5) и перенесите ее в область Selection Variable. Затем щелкните на кнопке Rule, чтобы задать конкретное значение данной переменной для регрессионного анализа. Следует отметить, что за одну итерацию можно построить регрессию только в разрезе какого-то одного класса полета. В дальнейшем следует повторить все этапы сначала по количеству классов (3), каждый раз выбирая следующий класс.
Если нет необходимости проводить регрессионный анализ в каком-либо разрезе, оставьте поле Selection Variable пустым.
Итак, на экране открылось диалоговое окно Set Rule, в котором вы должны указать, для какого именно класса полета вы хотите построить регрессионную модель. Выберите экономический класс, закодированный как 3 (рис. 4.26).
В более сложных случаях, когда требуется построить регрессионную модель в разрезе трех и более переменных, следует воспользоваться условным отбором данных (см. раздел 1.5.1). Например, если кроме класса полета есть еще и необходимость раздельного построения регрессионной модели для респондентов (мужчин и женщин), необходимо перед открытием диалогового окна Linear Regression произвести условный отбор анкет респондентов, являющихся мужчинами. Далее проводится регрессионный анализ по описываемой схеме. Для построения регрессии для женщин следует повторить все этапы сначала: вначале выбрать только анкеты респондентов-женщин и затем уже для них построить регрессионную модель.
Щелкните на кнопке Continue в диалоговом окне Set Rule - вы вновь вернетесь к основному диалоговому окну Linear Regression. Последним шагом перед запуском процедуры построения регрессионной модели является выбор пункта Collinearity Diagnostics в диалоговом окне, появляющемся при щелчке на кнопке Statistics (рис. 4.27). Установление требования провести диагностику наличия коллинеарности между независимыми переменными позволяет избежать эффекта мульти-коллинеарности, при котором несколько независимых переменных могут иметь настолько сильную корреляцию, что в регрессионной модели обозначают, в принципе, одно и то же (это неприемлемо).
Рассмотрим основные элементы отчета о построении регрессионной модели (окно SPSS Viewer), содержащие наиболее значимые для исследователя данные. Необходимо отметить, что все таблицы, представленные в отчете Output, содержат несколько блоков, соответствующих количеству шагов SPSS при построении модели. На каждом шаге при используемом методе backward из полного списка независимых переменных, введенных в модель изначально, при помощи наименьших частных коэффициентов корреляции последовательно исключаются переменные - до тех пор, пока соответствующий коэффициент регрессии не оказывается незначимым (Sig > 0,05). В нашем примере таблицы состоят из трех блоков (регрессия строилась в три шага). При интерпретации результатов регрессионного анализа следует обращать внимание только на последний блок (в нашем случае 3).
Первое, на что следует обратить внимание, - это таблица ANOVA (рис. 4.29). На третьем шаге статистическая значимость (столбец Sig) должна быть меньше или равна 0,05.
Затем следует рассмотреть таблицу Model Summary, содержащую важные сведения о построенной модели (рис. 4.30). Коэффициент детерминации R является характеристикой силы общей линейной связи между переменными в регрессионной модели. Он показывает, насколько хорошо выбранные независимые переменные способны определять поведение зависимой переменной. Чем выше коэффициент детерминации (изменяющийся в пределах от 0 до 1), тем лучше выбранные независимые переменные подходят для определения поведения зависимой переменной. Требования к коэффициенту R такие же, как к коэффициенту корреляции (см. табл. 4.4): в общем случае он должен превышать хотя бы 0,5. В нашем примере R = 0,66, что является приемлемым показателем.
Также важной характеристикой регрессионной модели является коэффициент R2, показывающий, какая доля совокупной вариации в зависимой переменной описывается выбранным набором независимых переменных. Величина R2 изменяется от 0 до 1. Как правило, данный показатель должен превышать 0,5 (чем он выше, тем показательнее построенная регрессионная модель). В нашем примере R2 =■ 0,43 - это значит, что регрессионной моделью описано только 43 % случаев (дисперсии в итоговой оценке полета). Таким образом, при интерпретации результатов регрессионного анализа следует постоянно иметь в виду существенное ограничение: построенная модель справедлива только для 43 % случаев.
Третьим практически значимым показателем, определяющим качество регрессионной модели, является величина стандартной ошибки расчетов (столбец Std. Error of the Estimate). Данный показатель варьируется в пределах от 0 до 1. Чем он меньше, тем надежнее модель (в общем случае показатель должен быть меньше 0,5). В нашем примере ошибка составляет 0,42, что является завышенным, но в целом приемлемым результатом.
На основании таблиц AN OVA и Model Summary можно судить о практической пригодности построенной регрессионной модели. Учитывая, что AN OVA показывает весьма высокую значимость (менее 0,001), коэффициент детерминации превышает 0,6, а стандартная ошибка расчетов меньше 0,5, можно сделать вывод о том, что с учетом ограничения модель описывает 43 % совокупной дисперсии, то есть построенная регрессионная модель является статистически значимой и практически приемлемой.
После того как мы констатировали приемлемый уровень качества регрессионной модели, можно приступать к интерпретации ее результатов. Основные практические результаты регрессии содержатся в таблице Coefficients (рис. 4.31). Под таблицей вы можете видеть, какая переменная была зависимой (общая оценка сервиса на борту) и для какого класса полета происходило построение регрессионной модели (эконом-класс). В таблице Coefficients практически значимыми являются четыре показателя: VIF, Beta, В и Std. Error. Рассмотрим последовательно, как их следует интерпретировать.
Прежде всего необходимо исключить возможность возникновения ситуации мультиколлинеарности (см. выше), при которой несколько переменных могут обозначать почти одно и то же. Для этого необходимо посмотреть на значение VIF возле каждой независимой переменной. Если величина данного показателя меньше 10 - значит, эффекта мультиколлинеарности не наблюдается и регрессионная модель приемлема для дальнейшей интерпретации. Чем выше этот показатель, тем более связаны между собой переменные. Если какая-либо переменная превышает значение в 10 VIF, следует пересчитать регрессию без этой независимой переменной. В данном примере автоматически уменьшится величина R2 и возрастет величина свободного члена (константы), однако, несмотря на это, новая регрессионная модель будет более практически приемлема, чем первая.
В первом столбце таблицы Coefficients содержатся независимые переменные, составляющие регрессионное уравнение (удовлетворяющие требованию статистической значимости). В нашем случае в регрессионную модель входят все частные характеристики сервиса на борту самолета, кроме аудиопрограмм. Исключенные переменные содержатся в таблице Excluded Variables (здесь не приводится). Итак, мы можем сделать первый вывод о том, что на общее впечатление авиапассажиров от полета оказывают влияние семь параметров: комфортабельность салона, работа бортпроводников, питание во время полета, спиртные напитки, дорожные наборы, видеопрограммы и пресса.
После того, как мы определили состав параметров, формирующих итоговое впечатление от полета, можно определить направление и силу влияния на него каждого частного параметра. Это позволяет сделать столбец Beta, содержащий стандартизированные - коэффициенты регрессии. Данные коэффициенты также дают возможность сравнить силу влияния параметров между собой. Знак (+ или -) перед -коэффициентом показывает направление связи между независимой и зависимой переменными. Положительные -коэффициенты свидетельствуют о том, что возрастание величины данного частного параметра увеличивает зависимую переменную (в нашем случае все независимые переменные ведут себя подобным образом). Отрицательные коэффициенты означают, что при возрастании данного частного параметра общая оценка снижается. Как правило, при определении связи между оценками параметров это свидетельствует об ошибке и означает, например, что выборка слишком мала.
Например, если бы перед - коэффициентом параметра работы бортпроводников стоял знак -, его следовало бы интерпретировать следующим образом: чем хуже работают бортпроводники, тем лучше становится общее впечатление пассажиров от полета. Такая интерпретация является бессмысленной и не отражающей реального положения вещей, то есть ложной. В таком случае лучше пересчитать регрессию без данного параметра; тогда доля вариации в итоговой оценке, описываемой исключенным параметром, будет отнесена на счет константы (увеличивая ее). Соответственно уменьшится и процент совокупной дисперсии, описываемой регрессионной моделью (величина R2). Однако это позволит восстановить семантическую релевантность.
Еще раз подчеркнем, что сделанное замечание справедливо для нашего случая (оценки параметров). Отрицательные - коэффициенты могут быть верными и отражать семантические реалии в других случаях. Например, когда уменьшение дохода респондентов приводит к увеличению частоты покупок дешевых товаров. В таблице вы видите, что в наибольшей степени на общее впечатление пассажиров от полета влияют два параметра: работа бортпроводников и комфортабельность салона (- коэффициенты по 0,21). Напротив, в наименьшей степени формирование итоговой оценки сервиса на борту происходит за счет впечатления от обслуживания спиртными напитками (0,08). При этом два первых параметра оказывают почти в три раза более сильное влияние на итоговую оценку полета, чем
Спиртные напитки. На основании стандартизированных (3-коэффициентов регрессии можно построить рейтинг влияния частных параметров сервиса на борту на общее впечатление авиапассажиров от полета, разделив их на три группы по силе влияния:
■ наиболее значимые параметры;
■ параметры, имеющие среднюю значимость;
■ параметры, имеющие низкую значимость для респондентов (рис. 4.32).
В крайнем правом столбце содержатся - коэффициенты, умноженные на 100, - для облегчения сравнения параметров между собой.
|
Данный рейтинг также можно интерпретировать и как рейтинг значимости для респондентов различных параметров сервиса на борту (в общем случае - схема выбора). Так, наиболее важными факторами являются первые два (1-2); среднюю значимость для пассажиров имеют следующие три параметра (3-5); относительно малое значение имеют последние два фактора (6-7).
Регрессионный анализ позволяет выявить истинные, глубинные мотивы респондентов при формировании общего впечатления о каком-либо продукте. Как показывает практика, такого уровня приближения нельзя достичь обычными методами - например, просто спросив респондентов: Какие факторы из нижеперечисленных оказывают наибольшее влияние на Ваше общее впечатление от полета самолетами нашей авиакомпании?. Кроме того, регрессионный анализ позволяет достаточно точно оценить, насколько один параметр более-менее значим для респондентов, чем другой, и на этом основании классифицировать параметры на критические, имеющие среднюю значимость и малозначимые.
Столбец В таблицы Coefficients содержит коэффициенты регрессии (нестандарти-зированные). Они служат для формирования собственно регрессионного уравнения, по которому можно рассчитать величину зависимой переменной при разных значениях независимых.
Особая строка Constant содержит важную информацию о полученной регрессионной модели: значение зависимой переменной при нулевых значениях независимых переменных. Чем выше значение константы, тем хуже подходит выбранный перечень независимых переменных для описания поведения зависимой переменной. В общем случае считается, что константа не должна быть наибольшим коэффициентом в регрессионном уравнении (коэффициент хотя бы при одной переменой должен быть больше константы). Однако в практике маркетинговых исследований часто свободный член оказывается больше всех коэффициентов вместе взятых. Это связано в основном с относительно малыми размерами выборок, с которыми приходится работать маркетологам, а также с неаккуратным заполнением анкет (некоторые респонденты могут не поставить оценку каким-либо параметрам). В нашем случае величина константы меньше 1, что является весьма хорошим результатом.
Итак, в результате построения регрессионной модели можно сформировать следующее регрессионное уравнение:
СБ = 0,78 + 0,20К + 0.20Б + 0,08ПП + 0.07С + 0Д0Н + 0,08В + 0Д2П, где
■ СБ - общая оценка сервиса на борту;
■ К - комфортабельность салона;
■ Б - работа бортпроводников;
■ ПП - питание во время полета;
■ С - спиртные напитки;
■ Н - дорожные наборы;
■ В - видеопрограмма;
■ П - пресса.
Последний показатель, на который целесообразно обращать внимание при интерпретации результатов регрессионного анализа, - это стандартная ошибка, рассчитываемая для каждого коэффициента в регрессионном уравнении (столбец Std. Error). При 95%-ном доверительном уровне каждый коэффициент может отклоняться от величины В на ±2 х Std. Error. Это означает, что, например, коэффициент при параметре Комфортабельность салона (равный 0,202) в 95 % случаев может отклоняться от данного значения на ±2 х 0,016 или на ±0,032. Минимальное значение коэффициента будет равно 0,202 - 0,032 = 0,17; а максимальное - 0,202 + 0,032 = 0,234. Таким образом, в 95 % случаев коэффициент при параметре «комфортабельность салона» варьируется в пределах от 0,17 до 0,234 (при среднем значении 0,202). На этом интерпретация результатов регрессионного анализа может считаться завершенной. В нашем случае следует повторить все шаги еще раз: сначала для бизнес -, потом для эконом-класса.
Теперь давайте рассмотрим другой случай, когда необходимо графически представить зависимость между двумя переменными (одной зависимой и одной независимой) при помощи регрессионного анализа. Например, если мы примем итоговую оценку полета авиакомпанией X в 2001 г. за зависимую переменную S, а тот же показатель в 2000 г. - за независимую переменную So, то для построения уравнения тренда (или регрессионного уравнения) нужно будет определить параметры соотношения S, = а + b x So. Построив данное уравнение, также можно построить регрессионную прямую и, зная исходную итоговую оценку полета, спрогнозировать величину данного параметра на следующий год.
Эту операцию следует начать с построения регрессионного уравнения. Для этого повторите все вышеописанные шаги для двух переменных: зависимой Итоговая оценка 2001 и независимой Итоговая оценка 2000. Вы получите коэффициенты, при помощи которых можно в дальнейшем строить линию тренда (как в SPSS, так и любыми другими средствами). В нашем случае полученное регрессионное уравнение имеет вид: S{ = 0,18 + 0,81 х So. Теперь построим уравнение линии тренда в SPSS.
Диалоговое окно Linear Regression имеет встроенное средство для построения графиков - кнопку Plots. Однако это средство, к сожалению, не позволяет на одном графике построить две переменные: S, и So - Для того чтобы построить тренд, необходимо использовать меню Graphs Scatter. На экране появится диалоговое окно Scatterplot (рис. 4.32), которое служит для выбора типа диаграммы. Выберите вид Simple. Максимально возможное число независимых переменных, которое можно изобразить графически, - 2. Поэтому при необходимости графического построения зависимости одной переменной (зависимой) от двух независимых (например, если бы в нашем распоряжении были данные не по двум, а по трем годам), в окне Scatterplot следует выбрать 3-D. Схема построения трехмерной диаграммы рассеяния не имеет существенных отличий от описываемого способа построения двухмерной диаграммы.
После щелчка на кнопке Define на экране появится новое диалоговое окно, представленное на рис. 4.34. Поместите в поле Y Axis зависимую переменную (Итоговая оценка 2001), а в поле X Axis - независимую (Итоговая оценка 2000). Щелкните на кнопке 0 К, что приведет к построению диаграммы рассеяния.
Для того чтобы построить линию тренда, дважды щелкните мышью на полученной диаграмме; откроется окно SPSS Chart Editor. В этом окне выберите пункт меню Chart Options; далее пункт Total в области Fit Line; щелкните на кнопке Fit Options. Откроется диалоговое окно Fit Line, выберите в нем тип аппроксимирующей линии (в нашем случае Linear regression) и пункт Display R-square in legend. После закрытия окна SPSS Chart Editor в окне SPSS Viewer появится линейный тренд, аппроксимирующий наши наблюдения по методу наименьших квадратов. Также на диаграмме будет отражаться величина R2, которая, как было сказано выше, обозначает долю совокупной вариации, описываемой данной моделью (рис. 4.35). В нашем примере она равна 53 %.
Этот коэффициент вводится в маркетинговых исследованиях для удобства сравнения привлекательности для респондентов анализируемых продуктов/марок. В анкете должны присутствовать вопросы типа Оцените представленные параметры продукта/ марки X, в которых респондентам предлагается дать свои оценки частным параметрам продукта или марки X, скажем, по пятибалльной шкале (от 1 - очень плохо до 5 - отлично). В конце списка оцениваемых частных параметров респонденты должны поставить итоговую оценку продукту/марке X. При анализе полученных в ходе опроса ответов респондентов на основании оценок респондентов формируются:
2 при высоком уровне оценки (средневзвешенный балл ≥ 4,5)
1 при среднем уровне оценки (средневзвешенный балл ≥4,0 и < 4,5)
1 при низком уровне оценки (средневзвешенный балл ≥3,0 и < 4,0)
2 при неудовлетворительной оценке (средневзвешенный балл < 3,0)
Рассчитанный для каждого конкурирующего продукта/марки коэффициент СА показывает его/ее относительную позицию в структуре потребительских предпочтений. Данный интегральный показатель учитывает уровень оценок по каждому параметру, скорректированный на их значимость. При этом он может изменяться в пределах от -1 (наихудшая относительная позиция среди всех рассматриваемых продуктов/марок) до 1 (наилучшее положение); 0 означает, что данный продукт/ марка ничем особенным не выделяется в глазах респондентов.
Мы завершаем рассмотрение ассоциативного анализа. Данная группа статистических методов применяется в отечественных компаниях в настоящее время достаточно широко (особенно это касается перекрестных распределений). Вместе с тем хотелось бы подчеркнуть, что только лишь перекрестными распределениями ассоциативные методы не ограничиваются. Для проведения действительно глубокого анализа следует расширить спектр применяемых методик за счет методов, описанных в настоящей главе.
Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х . Такой прогноз называетсяточечным. Он не является точным, поэтому дополняется расчетом стандартной ошибки ; получаетсяинтервальная оценка прогнозного значения :
Преобразуем уравнение регрессии:
ошибка зависит от ошибки и ошибки коэффициента регрессии b , т.е. .
Из теории выборки известно, что .
Используем в качестве оценки s 2 остаточную дисперсию на одну степень свободы S 2 , получаем: .
Ошибка коэффициента регрессии из формулы (15):
Таким образом, при х=х k получаем:
(31)
Как видно из формулы, величина достигает минимума при и возрастает по мере удаления от в любом направлении.
Для нашего примера эта величина составит:
При , При х k = 4
Для прогнозируемого значения 95% - ные доверительные интервалы при заданном х k определены выражением:
т.е. при х k =4 ±2,57-3,34 или ±8,58. При х к =4 прогнозное значение составит
у p =-5,79+36,84·4=141,57 - это точечный прогноз.
Прогноз линии регрессии лежит в интервале: 132,99 ≤ ≤ 150,15.
Мы рассмотрели доверительные интервалы длясреднего значения у при заданном х. Однако фактические значения у варьируются около среднего значения , они могут отклоняться на величину случайной ошибки e , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка прогноза отдельного значения у должна включать не только стандартную ошибку но и случайную ошибку S . Таким образом, средняя ошибка прогноза индивидуального значения y составит:
(33)
Для примера:
Доверительный интервал прогноза индивидуальных значений у при х к =4 с верностью 0,95 составит:. 141,57 ±2,57·8,01, или 120,98 ≤ у р ≤ 162,16.
Пусть в примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики затраты на производство 8 тыс. ед. продукции не превысят 250 млн. руб. Означает ли это изменение найденной закономерности или затраты соответствуют регрессионной модели?
Точечный прогноз: = -5,79 + 36,84 8 = 288,93. Предполагаемое значение - 250. Средняя ошибка прогнозного индивидуального значения:
Сравним ее с предполагаемым снижением издержек производства, т.е. 250-288,93= -38,93:
Поскольку оценивается только значимость уменьшения затрат, то используется односторонний t~ критерий Стьюдента. При ошибке в 5 % с n-2=5 t табл =2,015, поэтому предполагаемое уменьшение затрат значимо отличается от прогнозируемого значения при 95 % - ном уровне доверия. Однако, если увеличить вероятность до 99%, при ошибке 1 % фактическое значение t -критерия оказывается ниже табличного 3,365, и различие в затратах статистически не значимо, т.е. затраты соответствуют предложенной регрессионной модели.
Нелинейная регрессия
До сих пор мы рассматривали лишьлинейную модель регрессионной зависимости у от х (3). В то же время многие важные связи в экономике являютсянелинейными. Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства - трудом, капиталом и т.п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары - с другой).
При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.
Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:
к которой обычный МНК можно применять без всякой предварительной линеаризации.
Рассмотрим указанную процедуру применительно к параболе второй степени:
(35)
Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.
Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т.е. трем:
(36)
Решать эту систему можно любым способом, в частности, методом определителей.
Экстремальное значение функции наблюдается при значении фактора, равном:
Если b>0, с<0, имеет место максимум, т.е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При b<0, с>0 парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.
В нелинейных зависимостях, не являющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.
Зависимости гиперболического типа имеют вид:
(37)
Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля. Другим примером зависимости (37) являются кривые Энгеля, формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае b <0 , а результативный признак в (37) показывает долю расходов на непродовольственные товары.
Линеаризация уравнения (37) сводится к замене фактора z=1/х , и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z :
К такому же линейному уравнению сводится полулогарифмическая кривая:
(39)
которая может быть использована для описания кривых Энгеля. Здесь 1п(х) заменяется на z , и получается уравнение (38).
Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:
или в виде
Возможна такая зависимость:
В регрессиях типа (40) - (42) применяется один и тот же способ линеаризации - логарифмирование. Уравнение (40) приводится к виду:
(43)
Замена переменной Y = ln у сводит его к линейному виду:
(44)
где . Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (40) оцениваются по МНК из уравнения (44). Уравнение (41) приводится к виду:
который отличается от (43) только видом свободного члена, и линейное уравнение выглядит так:
Y=A+bx+E (46)
где A= lna . Параметры А и b получаются обычным МНК, затем параметр а в зависимости (41) получается как антилогарифм А. При логарифмировании (42) получаем линейную зависимость:
Y=A+Bx+E (47)
где B =lnb , а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (42) получается как антилогарифм коэффициента В.
Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:
особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х . Преобразуя (48) путем логарифмирования, получаем линейную регрессию:
Y=A+bX+E (49)
где Y= lny , A= lna, X= lnx, E= lnε .
Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость:
(50)
Проводя замену и =1/у , получим:
(51)
Наконец, следует отметить зависимость логистического типа:
(52)
Графиком функции (52) является так называемая «кривая насыщения», которая имеет две горизонтальные асимптоты у=0 и у=1/а и точку перегиба x= ln(b/a), у=1/(2а) , а также точку пересечения с осью ординат у=1/(а+b) :
Уравнение (52) приводится к линейному виду заменами переменных и=1/у, z=e - x .
Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции:
(53)
Здесь - общая дисперсия результативного признака у , остаточная дисперсия, определяемая по уравнению нелинейной регрессии . Следует обратить внимание на то, что разности в соответствующих суммах и берутся не в преобразованных, а в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. По-другому (53) можно записать так:
(54)
Величина R находится в границах 0 ≤ R ≤ 1, и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака. Так обстоит дело с полулогарифмической и полиномиальной регрессией, а также с равносторонней гиперболой (37). Определив линейный коэффициент корреляции для линеаризованных уравнений, например, н пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.
Иначе обстоит дело в случае, когда преобразование проводится также с величиной у , например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами в (54) будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением (54), вычисленным по исходному нелинейному уравнению.
Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R 2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R 2 для нелинейных связей называют индексом детерминации.
Оценка существенности индекса корреляции проводится так же, как и оценка надежности коэффициента корреляции.
Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F- критерию Фишера:
(55)
где n -число наблюдений, m -число параметров при переменных х . Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m =1, для полиномов (34) m=k , т.е. степени полинома. Величина т характеризует число степеней свободы для факторной СКО, а (п-т-1) - число степеней свободы для остаточной СКО.
Индекс детерминации R 2 можно сравнивать с коэффициентом детерминации r 2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем больше разница между R 2 и r 2 . Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R 2 -r 2) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t -критерий Стьюдента:
Здесь в знаменателе находится ошибка разности (R 2 -r 2), определяемая по формуле:
Если t >t табл (α;n-m-1), то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна.
В заключение приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии.
Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения ), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения ).
Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием . Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y . Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.
Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.
а) Предсказание среднего значения . Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении x p объясняющей переменной.
Запишем эмпирическое уравнение регрессии в виде
Здесь выделены две независимые составляющие: средняя и приращение . Отсюда вытекает, что дисперсия будет равна
Из теории выборки известно, что
Используя в качестве оценки s 2 остаточную дисперсию S 2 , получим
Дисперсия коэффициента регрессии, как уже было показано
Подставляя найденные дисперсии в (5.41), получим
. (5.56)
Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид
. (5.57)
Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от в любом направлении. Иными словами, больше разность между и , тем больше ошибка с которой предсказывается среднее значение y для заданного значения x p . Можно ожидать наилучшие результаты прогноза, если значения x p находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления от .
Случайная величина
(5.58)
имеет распределение Стьюдента с числом степеней свободы n=n –2 (в рамках нормальной классической модели ). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n –2 можно определить критическую точку , удовлетворяющую условию
.
С учетом (5.46) имеем:
.
Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для имеет вид:
, (5.59)
где предельная ошибка D p имеет вид
. (5.60)
Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной x p : при она минимальна, а по мере удаления x p от величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x p объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный, чем ближе x p к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям .
б) Предсказание индивидуальных значений зависимой переменной . На практике иногда более важно знать дисперсию Y , чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S . Это позволяет определять допустимые границы для конкретного значения Y .
Пусть нас интересует некоторое возможное значение y 0 переменной Y при определенном значении x p объясняющей переменной X . Предсказанное по уравнению регрессии значение Y при X =x p составляет y p . Если рассматривать значение y 0 как случайную величину Y 0 , а y p – как случайную величину Y p , то можно отметить, что
,
.
Случайные величины Y 0 и Y p являются независимыми, а следовательно, случайная величина U = Y 0 –Y p имеет нормальное распределение с
И . (5.61)
Используя в качестве s 2 остаточную дисперсию S 2 , получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y :
. (5.63)
Случайная величина
(5.64)
имеет распределение Стьюдента с числом степеней свободы k =n –2. На основании этого можно построить доверительный интервал для индивидуальных значений Y p :
, (5.65)
где предельная ошибка D u имеет вид
. (5.66)
Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).
Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при x p =160.
Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания
Тогда доверительный интервал для среднего значения на уровне значимости a=0,05 будет иметь вид
Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).
Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода x p =160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения
Тогда интервал, в котором будут находиться, по крайней мере, 95% индивидуальных объёмов потребления при доходе x p =160, имеет вид
Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления. â
ПРИМЕРЫ
Пример 5.65. По территориям региона приводятся данные за 199X г. (таб. 1.1).
2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.
3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F -критерия Фишера.
4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x , составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.
Решение
1. Для определения степени тесноты связи обычно используют коэффициент корреляции :
где , – выборочные дисперсии переменных x и y . Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):
Таблица 5.4
x | y | xy | x 2 | y 2 | e 2 | |||
148,77 | -15,77 | 248,70 | ||||||
152,45 | -4,45 | 19,82 | ||||||
157,05 | -23,05 | 531,48 | ||||||
149,69 | 4,31 | 18,57 | ||||||
158,89 | 3,11 | 9,64 | ||||||
174,54 | 20,46 | 418,52 | ||||||
138,65 | 0,35 | 0,13 | ||||||
157,97 | 0,03 | 0,00 | ||||||
144,17 | 7,83 | 61,34 | ||||||
157,05 | 4,95 | 24,46 | ||||||
146,93 | 12,07 | 145,70 | ||||||
182,83 | -9,83 | 96,55 | ||||||
Итого | – | 1574,92 | ||||||
Среднее значение | 85,58 | 155,75 | 13484,00 | 7492,25 | 24531,42 | – | – | – |
По данным таблицы находим:
, , , ,
, , , ,
, .
Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость .
Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента :
который имеет распределение Стьюдента с k =n –2 и уровнем значимости a. В нашем случае
и .
Поскольку , то коэффициент корреляции существенно отличается от нуля.
Для значимого коэффициента можно построить доверительный интервал , который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n <30), используют z-преобразование Фишера :
Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием и дисперсией . Поэтому вначале строят доверительный интервал для M[z ], а затем делают обратное z -преобразование. Применяя z -преобразование для найденного коэффициента корреляции, получим
Доверительный интервал для M(z ) будет иметь вид
,
где t g находится с помощью функции Лапласа F(t g)=g/2. Для g=0,95 имеем t g =1,96. Тогда
или . Обратное z -преобразование осуществляется по формуле
В результате находим
.
В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.
2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид
,
где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b 0 и b 1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:
где b 0 и b 1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК ). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной:
,
где – отклонения y i от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам b 0 и b 1 . В результате получаем систему нормальных уравнений:
Решая эту систему, найдем
, .
По данным таблицы находим
Получено уравнение регрессии:
Параметр b 1 называется коэффициентом регрессии . Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб .
,
где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k 1 =1 и k 2 =n –2. В нашем случае
.
Поскольку критическое значение критерия равно
и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F - и t -критерии связаны равенством , что можно использовать для проверки расчётов.
4.
Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение y p
определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения x p
ЛЕКЦИЯ 5 99
§5.2. Анализ точности оценок коэффициентов регрессии 99
5.2.1. Оценка дисперсии случайного отклонения 99
5.2.2. Проверка гипотез относительно коэффициентов регрессии 100
5.2.3. Интервальные оценка коэффициентов регрессии 103
§5.3. Показатели качества уравнения регрессии 104
5.3.1. Коэффициент детерминации 104
5.3.2. Проверка общего качества уравнения регрессии: F-тест 106
5.3.3. Проверка общего качества уравнения регрессии: t-тест 108
§5.4. Интервалы прогноза по уравнению регрессии 108
В прогнозных расчетах по уравнению регрессии определяется предсказываемое значение как точечный прогноз при , т. е. путем подстановки в уравнение регрессии соответствующего значения х. Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки , т. е , и соответственно интервальной оценкой прогнозного значения (у*)
Чтобы понять, как строится формула для определения величин среднеквадратической ошибки , обратимся к уравнению линейной парной регрессии:
Известным образом найдем дисперсию модели парной линейной регрессии:
(3.29)
С учетом выражении (3.24) и (3.25) предварительно запишем:
После несложных преобразовании окончательно получим:
(3.30)
Отсюда перейдем среднеквадратической ошибке модели парной линейной регрессии:
Рассмотренная формула среднеквадратическая ошибки предсказываемого среднего значения y при заданном значении характеризует ошибку положения линии регрессии. Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере того, как «удаляется» от в любом направлении. Иными словами, чем больше разность между и x , тем больше ошибка с которой предсказывается среднее значение y для заданного значения . Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении от . Если же значение оказывается за пределами наблюдаемых значений х, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько отклоняется от области наблюдаемых значений фактора x .
Для нашего примера составит:
Для прогнозируемого значения 95%-ные доверительные интервалы при заданном определяются выражением
Для вероятности 95% тогда26,04.
При , прогнозное значениеy составит:
которое представляет собой точечный прогноз.
Прогноз линии регрессии в интервале составит:
Однако фактические значения у варьируют около среднего значения . Индивидуальные значенияу могут отклоняться от на величину случайной ошибки , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы. Поэтому предсказываемого индивидуального значения y должна включать не только стандартную ошибку, но и случайную ошибкуS .
Средняя ошибка прогнозируемого индивидуального значения y составит:
По данным рассматриваемого примера получим:
Доверительные интервалы прогноза индивидуальных значений y при с вероятностью 0,95 составят:, или 141,57, это означает, что.
Интервал достаточно широк, прежде всего, за счет малого объема наблюдений.
При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от точности прогноза значения фактора х. Его величина может задаваться на основе анализа других моделей исходя из конкретной ситуации, а также из анализа динамики данного фактора.
Рассмотренная формула средней ошибки индивидуального значения признака y может быть использована также для оценки существенности различия предсказываемого значения исходя из регрессионной модели и выдвинутой гипотезы развития событий.
Предположим, что в нашем примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики при выпуске продукции в 8 тыс. ед. затраты на производство не превысят 250 млн руб. Означает ли это действительно изменение найденной закономерности или же данная величина затрат соответствует регрессионной модели?
Чтобы ответить на этот вопрос, найдем точечный прогноз при х = 8, т. е.
Предполагаемое же значение затрат, исходя из экономической ситуации, - 250,0. Для оценки существенности различия этих величин определим среднюю ошибку прогнозируемого индивидуального значения:
Сравним ее с величиной предполагаемого снижения издержек производства, т. е. :
Поскольку оценивается значимость только уменьшения затрат, то используется односторонний критерий Стьюдента. При ошибке в 5 % с пятью степенями свободы. Следовательно, предполагаемое уменьшение затрат значимо отличается от прогнозируемого по модели при 95 %-ном уровне доверия. Однако если увеличить вероятность до 99 %, при ошибке в 1 % фактическое значение критерия оказывается ниже табличного 3,365, и рассматриваемое различие в величине затрат статистически не значимо.