Построить линейную регрессию. Пример: простой регрессионный анализ. Регрессионный анализ в Excel

Метод линейной регрессии позволяет нам описывать прямую линию, максимально соответствующую ряду упорядоченных пар (x, y). Уравнение для прямой линии, известное как линейное уравнение, представлено ниже:

ŷ — ожидаемое значение у при заданном значении х,

x — независимая переменная,

a — отрезок на оси y для прямой линии,

b — наклон прямой линии.

На рисунке ниже это понятие представлено графически:

На рисунке выше показана линия, описанная уравнением ŷ =2+0.5х. Отрезок на оси у — это точка пересечения линией оси у; в нашем случае а = 2. Наклон линии, b, отношение подъема линии к длине линии, имеет значение 0.5. Положительный наклон означает, что линия поднимается слева направо. Если b = 0, линия горизонтальна, а это значит, что между зависимой и независимой переменными нет никакой связи. Иными словами, изменение значения x не влияет на значение y.

Часто путают ŷ и у. На графике показаны 6 упорядоченных пар точек и линия, в соответствии с данным уравнением

На этом рисунке показана точка, соответствующая упорядоченной паре х = 2 и у = 4. Обратите внимание, что ожидаемое значение у в соответствии с линией при х = 2 является ŷ. Мы можем подтвердить это с помощью следу­ющего уравнения:

ŷ = 2 + 0.5х =2 +0.5(2) =3.

Значение у представляет собой фактическую точку, а значение ŷ — это ожидаемое значение у с использованием линейного уравнения при заданном значении х.

Следующий шаг - определить линейное уравнение, максимально соответствующее набору упорядоченных пар, об этом мы говорили в предыдущей статье, где определяли вид уравнения по .

Использование Excel для определения линейной регрессии

Для того, чтобы воспользоваться инструментом регрессионного анализа встроенного в Excel, необходимо активировать надстройку Пакет анализа . Найти ее можно, перейдя по вкладке Файл –> Параметры (2007+), в появившемся диалоговом окне Параметры Excel переходим во вкладку Надстройки. В поле Управление выбираем Надстройки Excel и щелкаем Перейти. В появившемся окне ставим галочку напротив Пакет анализа, жмем ОК.

Во вкладке Данные в группе Анализ появится новая кнопка Анализ данных.

Чтобы продемонстрировать работу надстройки, воспользуемся данными , где парень и девушка делят столик в ванной. Введите данные нашего примера с ванной в столбцы А и В чистого листа.

Перейдите во вкладку Данные, в группе Анализ щелкните Анализ данных. В появившемся окне Анализ данных выберите Регрессия , как показано на рисунке, и щелкните ОК.

Установите необходимыe параметры регрессии в окне Рег­рессия , как показано на рисунке:

Щелкните ОК. На рисунке ниже показаны полученные результаты:

Эти результаты соответствуют тем, которые мы получили путем самостоя­тельных вычислений в .

Пакет MS Excel позволяет при построении уравнения линейной регрессии большую часть работы сделать очень быстро. Важно понять, как интерпретировать полученные результаты. Для построения модели регрессии необходимо выбрать пункт Сервис\Анализ данных\Регрессия (в Excel 2007 этот режим находится в блоке Данные/Анализ данных/Регрессия). Затем полученные результаты скопировать в блок для анализа.

Исходные данные:

Результаты анализа

Включать в отчет
Расчет параметров уравнения регрессии
Теоретический материал
Уравнение регрессии в стандартном масштабе
Множественный коэффициент корреляции (Индекс множественной корреляции)
Частные коэффициенты эластичности
Сравнительная оценка влияния анализируемых факторов на результативный признак (d - коэффициенты раздельной детерминации)

Проверка качества построенного уравнения регрессии
Значимость коэффициентов регрессии b i (t-статистика. Критерий Стьюдента)
Значимость уравнения в целом (F-статистика. Критерий Фишера). Коэффициент детерминации
Частные F-критерии

Уровень значимости 0.005 0.01 0.025 0.05 0.1 0.25 0.4

Линия регрессии является графическим отражением взаимосвязи между явлениями. Очень наглядно можно построить линию регрессии в программе Excel.

Для этого необходимо:

1.Открыть программу Excel

2.Создать столбцы с данными. В нашем примере мы будем строить линию регрессии, или взаимосвязи, между агрессивностью и неуверенностью в себе у детей-первоклассников. В эксперименте участвовали 30 детей, данные представлены в таблице эксель:

1 столбик — № испытуемого

2 столбик — агрессивность в баллах

3 столбик — неуверенность в себе в баллах

3.Затем необходимо выделить оба столбика (без названия столбика), нажать вкладку вставка , выбрать точечная , а из предложенных макетов выбрать самый первый точечная с маркерами .

4.Итак у нас получилась заготовка для линии регрессии — так называемая — диаграмма рассеяния . Для перехода к линии регрессии нужно щёлкнуть на получившийся рисунок, нажать вкладку конструктор, найти на панели макеты диаграмм и выбрать Ма кет9 , на нем ещё написано f(x)

5.Итак, у нас получилась линия регрессии. На графике также указано её уравнение и квадрат коэффициента корреляции

6.Осталось добавить название графика, название осей. Также по желанию можно убрать легенду, уменьшить количество горизонтальных линий сетки (вкладка макет , затем сетка ). Основные изменения и настройки производятся во вкладке Макет

Линия регрессии построена в MS Excel. Теперь её можно добавить в текст работы.

Назначение сервиса . С помощью сервиса в онлайн режиме можно найти:
  • параметры уравнения линейной регрессии y=a+bx , линейный коэффициент корреляции с проверкой его значимости;
  • тесноту связи с помощью показателей корреляции и детерминации, МНК-оценку, статическую надежность регрессионного моделирования с помощью F-критерия Фишера и с помощью t-критерия Стьюдента , доверительный интервал прогноза для уровня значимости α

Уравнение парной регрессии относится к уравнению регрессии первого порядка . Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии .

Пример . Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте . Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Решение будем проводить на основе процесса эконометрического моделирования .
1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
Спецификация модели - определение цели исследования и выбор экономических переменных модели.
Ситуационная (практическая) задача. По 10 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x (в %).
2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез.
Уже на этом этапе можно говорить о явной зависимости уровня квалификации рабочего и его выработкой, ведь чем опытней работник, тем выше его производительность. Но как эту зависимость оценить?
Парная регрессия представляет собой регрессию между двумя переменными – y и x , т. е. модель вида:

Где y – зависимая переменная (результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых:

Где y – фактическое значение результативного признака; y x – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Графически покажем регрессионную зависимость между выработкой продукции на одного работника и удельного веса рабочих высокой квалификации.


3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными. Выбор вида функциональной зависимости в уравнении регрессии называется параметризацией модели. Выбираем уравнение парной регрессии , т.е. на конечный результат y будет влиять только один фактор.
4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей. Выборка состоит из 10 предприятий отрасли.
5-й этап (идентификация модели) – оценивание неизвестных параметров модели по имеющимся статистическим данным.
Чтобы определить параметры модели, используем МНК - метод наименьших квадратов . Система нормальных уравнений будет выглядеть следующим образом:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1).
x y x 2 y 2 x y
10 6 100 36 60
12 6 144 36 72
15 7 225 49 105
17 7 289 49 119
18 7 324 49 126
19 8 361 64 152
19 8 361 64 152
20 9 400 81 180
20 9 400 81 180
21 10 441 100 210
171 77 3045 609 1356

Данные берем из таблицы 1 (последняя строка), в итоге имеем:
10a + 171 b = 77
171 a + 3045 b = 1356
Эту СЛАУ решаем методом Крамера или методом обратной матрицы .
Получаем эмпирические коэффициенты регрессии: b = 0.3251, a = 2.1414
Эмпирическое уравнение регрессии имеет вид:
y = 0.3251 x + 2.1414
6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.
Анализ проводим с помощью

Лабораторная работа №5. Регрессионный анализ.

Лабораторная работа выполняется в Excel 2007.

Цель работы – построение корреляционного поля, отыскание коэффициентов линейной регрессии и построение линии среднеквадратической регрессии средствами Excel.

Задана таблица значений контролируемой величины X и случайной величины Y . Построить корреляционное поле. Найти параметры линейной среднеквадратичной регрессии. Построить линию линейной регрессии.

1. Составьте таблицу значений контролируемой величины X и случайной величины Y , как показано на рис. 1 и в прилагаемом отчете.

Рис. 1. Таблица исходных данных и параметров уравнения регрессии.

К методическому руководству прилагается отчет по лабораторной работе в Excel/

2. Используя исходные данные, постройте корреляционное поле (так это называется).

Рис. 2. График корреляционного поля.

3. Уравнение линейной регрессии имеет вид:

- уравнение линейной регрессии;

Уравнение линейной регрессии, приведенное к виду уравнения с угловым коэффициентом;

Выборочный коэффициент регрессии;

- выборочная постоянная регрессии;

X ;

Среднее квадратическое отклонение Y .

Коэффициент корреляции;

Корреляционный момент;

;

X ;

Математическое ожидание случайной величины Y .

4. Составьте таблицу параметров уравнения регрессии ,,,,(как показано на рис.1):

Для вычисления математического ожидания ииспользуйте функциюСРЗНАЧ из категории Статистические (и не спрашивайте, как это сделать);

Для вычисления среднего квадратического отклонения ииспользуйте функциюСТАНДОТКЛОН из категории Статистические (как это сделать, можете спросить у преподавателя, если не боитесь);

Для вычисления коэффициента корреляции используйте функцию КОРРЕЛ из категорииСтатистические.

4. В ячейку C2 внесите формулу , используя результаты вычислений параметров,,,и, как показано в строке ввода формул на рис. 1.

Размножьте эту формулу в столбце ячеек C2:C6 с меткой .

5. На графике корреляционного поля добавьте линию регрессии.

Excel располагает еще одним способом отыскания сглаживающей линейной зависимости и построении линии регрессии.

6. Скопируйте исходные данные в ячейку A 20 . Найдите параметры уравнения линейной регрессии следующим образом:

Выборочный коэффициент регрессии отыскивается помощью функциюНАКЛОН из категории Статистические ;

Выборочная постоянная регрессии отыскивается помощью функциюОТРЕЗОК из категории Статистические ;

Результаты вычислений показаны на следующем рисунке:

Рис. 3. Таблица вычисления параметров ,и данныхy * для построения линии регрессии

7. Постройте совмещенный график корреляционного поля и линии регрессии.

Еще одна функция Excel для отыскания линейной регрессии и построении линия линии тренда.

8. Выберите в Главном меню последовательно следующие закладки Данные →Анализ данных →Регрессия .

Заполните свободные поля в диалоговом окне Регрессия соответствующими данными как показано на рис 4:

Входной интервал y : исходные данные y ;

Входной интервал x : исходные данные x ;

Выходной интервал: A 47

Поставьте галочку в окне график подбора. ОК!!!

Рис. 4. Диалоговое окно Регрессия

Процедура Регрессия выводит график исходных данных и сглаживающую линию регрессии (график надо отформатировать).

В третьей таблице ВЫВОД ИТОГОВ находятся интересующие нас параметры регрессии и - коэффициентыY -пересечение и переменная X . Кроме того процедура Регрессия выводит на экран большое количество других результатов в виде таблиц, которые нам потребуются в дальнейшем, при решении задач эконометрики.

Есть в Excel еще два способа построения линии тренда.

Скопируйте исходные данные X и Y в блок, начиная с ячейки A28, и постройте еще раз график корреляционного поля (Вставка→График→Точечный )

Щелкнув правой кнопкой мыши на маркере одной из точек графика корреляционного поля, активизируйте, таким образом, диалоговое окно форматирования данных ряда. Выберите опцию Добавить линию тренда … (как показано на рис. 5)

В открывшемся окне Формат линии тренда установите Параметры линии тренда :

- Линейная

- показать уравнение на диаграмме

- поместить на диаграмму величину достоверности аппроксимации .

При установке флажка в поле - поместить на диаграмму величину достоверности аппроксимации , на диаграмму выводится значение коэффициента детерминации .

Чем лучше выбрана функция регрессии и чем меньше различие между наблюденными значениями и расчетными ,тем ближе к единице.

Рис. 5. Диалоговое окно Регрессия

Рис. 6. Диалоговое окно Регрессия

После выполнении процедуры Добавить линию тренда… график корреляционного поля приобретет вид:

Рис. 7. Графики корреляционного поля и линии тренда с уравнением регрессии и коэффициентом детерминации.

Отформатировать график и сделать выводы по лабораторной работе.

Результаты работы предъявить преподавателю для выставления оценки.

Варианты задания.

Получена таблица значений контролируемой величины X и случайной величины Y. Найти уравнение линейной регрессии. Нанести на график исходные данные случайной величины Y и построить график линии регрессии.

Вариант 1.

Вариант 2.

Вариант 3.

Вариант 4.

Вариант 5.

Вариант 6.

Вариант 7.

Вариант 8.

Вариант 9.

Вариант 10.

Вариант 11.

Вариант 12.

Вариант 13.

Вариант 14.

Вариант 15.

Вариант 16.

Вариант 17.

Вариант 18.

Вариант 19.