Метод половинного деления информатика. Решение нелинейных уравнений. Метод половинного деления

КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ В

ЭКОНОМИЧЕСКИХ РАСЧЕТАХ

Основные понятия в корреляционном и регрессионном анализе

В математике существуют два понятия, отражающие причинно-следственные связи между признаками: функциональная и корреляционная зависимость.

Под функциональной зависимостью понимается такая связь между величинами, когда значение зависимой величины – функции – полностью определяется значениями зависимых переменных.

Корреляционная зависимость имеет место, когда каждому значекнию одной (результативной) величины соответствует множество случайных значений другой, возникающей с определенной вероятностью.

При изучении экономических явлений мы имеем дело не с функциональной, а с корреляционной зависимостью. С помощью корреляционного и регрессионного анализа можно рассчитать коэффициенты корреляции , которые оценивают силу связи между отдельными показателями, подобрать

уравнение регрессии , которое определяет форму этой связи, и установить достоверность существования этой связи.

Процесс корреляционного и регрессионного анализа экономических процессов состоит из следующих этапов:

Предварительная обработка статистических данных и выбор основных факторных признаков, влияющих на результативный показатель;

Оценка тесноты связи и выявление формы существующей связи между результативным и факторными признаками;

Разработка модели (многофакторной) изучаемого явления и ее анализ;

Применение полученных результатов проведенного анализа для принятия управленческих решений.

Перед корреляцией стоят две основные задачи. Первая заключается в выявлении, как изменяется в среднем результативный признак в связи с изменением факторного. Эта задача решается нахождением уравненимя связи. Вторая задача определяет степень влияния искажающих факторов. Эту задачу решают путем изучения показателей тесноты связи. Такими показателями являются коэффициенты корреляции и корреляционное отношение.



2. Результативный и факторный признаки . При изу­чении влияния одних признаков явлений на другие из цепи признаков, характеризующих данное явление, выделяются два - признака-факторный (влияющий на результат) и результативный. Необходимо установить, какой из признаков является факторным и какой результативным. В этом помогает прежде всего логиче­ский анализ.

Пример . Себестоимость промышленной продукции отдель­ного предприятия зависит от многих факторов, в том числе от объема продукции на данном предприятии. Себестоимость про­дукции выступает в этом случае как результативный признак, а объем продукции - как факториальный.

Другой пример. Чтобы судить о преимуществах круп­ных предприятий перед мелкими, можно рассмотреть, как увеличива­ется производительность труда рабочих крупных предприятий, и выявить зависимость производительности труда от увеличения размеров предприятия.

3. Понятие об уравнение связи. Уравнение этой функции будет уравнением связи между результативным и факториальным признаками.

Уравнение связи находится с помощью способа наименьших квадратов, который требует, чтобы сумма квадратов отклонений эмпирических значений от значений, получаемых на основании уравнения связи, была минимальной.

Применение способа наименьших квадратов позволяет нахо­дить параметры уравнения связи при помощи решения системы так называемых нормальных уравнений, различных для связи каждого вида.

Чтобы отметить, что зависимость между двумя признаками выражается и среднем, значения результативного признака, найденные по уравнению связи, обозначаются Ух.

Зная уравнение связи, можно вычислить заранее среднее значение результативного признака, когда значение. факториального признака известно. Таким образом, уравнение связи яв­ляется методом обобщения наблюдаемых статистических связей, методом их изучения.

Применение той или иной функции в качестве уравнения связи разграничивает связи по их форме: линейную связь и криволинейную связь (параболическую, гиперболическую и др.).

Рассмотрим уравнения связи для зависимостей от одного признака при разных формах связи, (линейной, криволинейной параболической, гиперболической) и для множественной связи.

4. Линейная зависимость между признаками . Уравнение связи как уравнение прямой Ух==ао+а1х применяется в случае равномерного на­растания результативного признака с увеличением признака факториального. Такая зависимость будет зависимостью линей­ной (прямолинейной).

Параметры уравнения прямой линии ао и а1 находятся путем решения системы нормальных уравнений, получаемых по способу наименьших квадратов:

Примером расчета параметров уравнения и средних значе­ний результативного признака Ух может служить следующая таблица, являющаяся результатом группировки по факториальному признаку и подсчета средних по результативному при­знаку.

Группировка предприятий по стоимости основных средств и подсчет сумм необходимы для уравнения связи.

Из таблицы находим: n==6; =18; =39,0; =71,5

132.0. Строим систему двух уравнений с двумя неизвест­ными:

Поделив каждый член в обоих уравнениях на коэффициенты при aо получим:

Вычтем из второго уравнения первое: 0,97а1=0,83; а1==0,86. Подставив значения а1 в первое уравнение aо+3*0,86 =6,5, най­дем ао=6,5-2,58=+3,92.

Уравнение связи примет вид: yx=3,92+0,86х. Подставив в это уравнение соответствующие х, получим значения резуль­тативного признака, отражающие среднюю зависи­мость у от х в виде корреляционной зависимости.

Заметим, что суммы, ис­численные по уравнению и фактические, равны между собой. Изображение факти­ческих и вычисленных зна­чений на рис. 4 показывает, что уравнение связи ото­бражает наблюденную зависимость в среднем.

5. Параболическая зависимость между признаками . Параболическая зависимость, выражаемая уравнением параболы 2-го порядка уx =ао+a1x+a2x 2 , имеет место при ускоренном возрастании или убывании результативного признака в сочетании с равномерным возрастанием факто­риального признака.

Параметры уравнения параболы aо; а1; а2, вычисляются пу­тем решения системы 3 нормальных уравнений:

Возьмем для примера зависимость месячного выпуска про­дукции (у) от величины стоимости основных средств (х). Оба показателя округлены до миллионов рублей. Расчеты необходи­мых сумм приведем в табл. 5.

По данным таблицы составляем систему уравнений:

6. Уравнение гиперболы. Обратная связь указывает на убывание результативного признака при возрастании факториального. Такова линейная связь при отрицательном значении а1. В ряде других случаев обратная связь может быть выражена уравнением гиперболы

Параметры уравнения гиперболы ао и а1 находятся из си­стемы нормальных уравнений:

7. Корреляционная таблица. При большом объеме наблюдений, когда число взаимосвязанных пар велико, парные данные легко могут быть располо­жёны в корреляционной таблице, являющейся наиболее удобной фор­мой представления значительного количества пар чисел.

В корреляционной таблице один признак располагается в строках, а другой - в колонках таблицы. Чис­ло, расположенное в клетке на пе­ресечении графы и колонки, пока­зывает, как часто встречается дан­ное значение результативного при­знака в сочетании с данным значе­нием факториального признака.

Для простоты расчета возьмем небольшое число наблюдений на 20 предприятиях за средней месячной выработкой продукции на одного рабочего (тыс. руб.-у) и за стоимостью основных производст­венных средств (млн. руб.-.х).

В обычной парной таблице эти сведения располагаются так:

Итоги строк у показывают частоту признака nу, итоги граф х - частоту признака nx. Числа, стоящие в клетках корреля­ционной таблицы, являются частотами, относящимися к обоим признакам и обозначаются, nxy.

Корреляционная таблица даже при поверхностном знакомст­ве дает общее представление о прямой и обратной связи. Если частоты расположены по диагонали вниз направо, то связь между признаками прямая (при увеличивающихся значениях признака в строках и графах). Если же частоты расположены по диагонали вверх направо, то связь обратная.

8. Корреляционное отношение. Если произведено измере­ние явления по двум признакам, то имеется возможность находить меры рассеяния (главным образом дисперсию) по результативному признаку для одних и тех же значений факториального признака.

Дана, например, корреляционная таблица двух взаимозави­симых рядов, в которых для простоты имеется лишь три.значе­ния факториального признака количества внесенных удобрений (х), а результативный признак-урожайность (у)-значитель­но колеблется. Таблица 16

Каждая группа участков с разной урожайностью имела раз­ное количество внесенных удобрений. Так, когда вносилось удобрений по 20 г/ урожайность" на разных участках была рав­ной: на одном участке она составила 0,8 т, на двух участках- 0,9 т, на трех- 1,0 т и на одном - 1,1 т. Найдем среднюю уро­жайность и дисперсию по урожайности для этой группы уча­стков.

Для группы участков с количеством внесенных удобрений 30,0 г средняя урожайность составит:

Вычислим аналогичные характеристики для группы участ­ков. получивших удобрений по 40 т:

Из этих данных можно определить также средний урожай всех 20 участков, независимо от количества внесенных удобре­ний, т. е. общую среднюю:

и меру колеблемости (дисперсию) средней урожайности групп около общей средней. Эту дисперсию называют межгрупповой ^дисперсией и обозначают б 2

где уi-средние урожайности по группам участков, отличаю­щихся количеством внесенных удобрений; m1,m2,m3,-числен­ности групп. Межгрупповая дисперсия для данного примера составит:

Межгрупповая дисперсия показывает рассеяние, возникаю­щее за счет факториального признака. В данном примере У= == 0,01&247 является показателем рассеяния урожайности, возникшего за счет разности в количестве внесенных удобрений.

Однако, кроме межгрупповой дисперсии, можно вычислить и дисперсию как показатель рассеяния за счет остальных фак­торов (если называть так все прочие факторы, кроме удоб­рений). Этот показатель явится средней (взвешенной) величи­ной из показателей рассеяния (дисперсий) по группам участков

Это практически означает, что можно получить общую меру рассеяния (дисперсию) для всех 20 участков, если имеются сведения о средних и дисперсиях по группам участков, отличающихся количеством внесенных удобрений. Следовательно, общая дисперсия по урожайности для 20 участков составит;

Формулы для исчисления межгрупповой и средней из груп­повых дисперсий можно сокращенно записать так:

Расчет общей дисперсии, внутригрупповой и межгрупповой дисперсии позволяет делать некоторые выводы о мере влияния факториального признака на колеблемость признака резуль­тативного. Эта мера влияния находится при помощи корреля­ционного отношения:

Значит, колеблемость по урожайности участков на 78% зависит от колеблемости количества внесенных удобрений.

Линейный коэффициент корреляции

При изучении тесноты связи между двумя взаимозависимыми рядами применяется линейный коэффициент корреляции, который показывает, существует ли и насколько велика связь между этими рядами. Он может принимать значения в пределах от –1 до +1.

10.Совокупный коэффициент корреляции :

,

где r – линейные коэффициенты корреляции, а подстрочные знаки показывают, между какими признаками они исчисляются.

Где x·y , x , y - средние значения выборок; σ(x), σ(y) - среднеквадратические отклонения.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b: , где σ(x)=S(x), σ(y)=S(y) - среднеквадратические отклонения, b - коэффициент перед x в уравнении регрессии y=a+bx .

Другие варианты формул:
или

К xy - корреляционный момент (коэффициент ковариации)

Линейный коэффициент корреляции принимает значения от –1 до +1 (см. шкалу Чеддока). Например, при анализе тесноты линейной корреляционной связи между двумя переменными получен коэффициент парной линейной корреляции, равный –1 . Это означает, что между переменными существует точная обратная линейная зависимость.

Геометрический смысл коэффициента корреляции : r xy показывает, насколько различается наклон двух линий регрессии: y(x) и х(у) , насколько сильно различаются результаты минимизации отклонений по x и по y . Чем больше угол между линиями, то тем больше r xy .
Знак коэффициента корреляции совпадает со знаком коэффициента регрессии и определяет наклон линии регрессии, т.е. общую направленность зависимости (возрастание или убывание). Абсолютная величина коэффициента корреляции определяется степенью близости точек к линии регрессии.

Свойства коэффициента корреляции

  1. |r xy | ≤ 1;
  2. если X и Y независимы, то r xy =0, обратное не всегда верно;
  3. если |r xy |=1, то Y=aX+b, |r xy (X,aX+b)|=1, где a и b постоянные, а ≠ 0;
  4. |r xy (X,Y)|=|r xy (a 1 X+b 1 , a 2 X+b 2)|, где a 1 , a 2 , b 1 , b 2 – постоянные.

Инструкция . Укажите количество исходных данных. Полученное решение сохраняется в файле Word (см. Пример нахождения уравнения регрессии). Также автоматически создается шаблон решения в Excel . .

Количество строк (исходных данных)
Заданы итоговые значения величин (∑x, ∑x 2 , ∑xy, ∑y, ∑y 2)

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

хорошую работу на сайт">

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1. Понятие Корреляции

Корреляция (корреляционная зависимость) -- статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения значений одной или нескольких из этих величин приводят к систематическому изменению значений другой или других величин.

Математической мерой корреляции двух случайных величин служит корреляционное отношение, либо коэффициент корреляции (или). В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи -- например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция -- корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях -- корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «бомльшее количество пожарных приводит к бомльшему ущербу», и тем более не имеет смысла попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад.

В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Более тонкий инструмент для изучения связи между двумя случайными величинами является понятие взаимной информации

2. Линейный коэффициент корреляции

Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон (англ.)русск. в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле

Коэффициент корреляции изменяется в пределах от минус единицы до единицы.

Доказательство:

Разделив обе части двойного неравенства на получим

Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости: , где -- коэффициент регрессии, -- среднеквадратическое отклонение соответствующего факторного признака.

Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или (тау) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).

3. Корреляционный анализ

Корреляционный анализ -- метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации)

Ограничения корреляционного анализа

1. Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно быть не менее, чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию не менее, чем в 10 раз превышающую количество факторов). В случае, если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.

2. Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае, если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.

3. Исходная совокупность значений должна быть качественно однородной.

4. Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.

Область применения

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

x 2

y 2

Выборочные средние

Выборочные дисперсии:

S 2 (x)= -=-32.74 = 1203.95

S 2 (y)= -=+187.74 = 1424.43

Среднеквадратическое отклонение

4. В ычисляем коэффициент корреляции

Коэффициент корреляции -- это показатель взаимного вероятностного влияния двух случайных величин. Коэффициент корреляции R может принимать значения от -1 до +1. Если абсолютное значение находится ближе к 1, то это свидетельство сильной связи между величинами, а если ближе к 0 -- то, это говорит о слабой связи или ее отсутствии. Если абсолютное значение R равно единице, то можно говорить о функциональной связи между величинами, то есть одну величину можно выразить через другую посредством математической функции.
Вычислить коэффициент корреляции можно по следующим формуле:

Корреляционная зависимость между величинами Х и Y - обратная и слабая.

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Линейное уравнение регрессии имеет вид y = bx + a + е

Для оценки параметров б и в - используют МНК (метод наименьших квадратов).

Система нормальных уравнений.

a?x + b?x 2 = ?y*x

Для наших данных система уравнений имеет вид

20a + 654.7 b = -3740.9

654.7 a + 24733.74b = -126355,03

Из первого уравнения выражаем а и подставим во второе уравнение

Получаем b = 75.58, a = -2661.16

Уравнение регрессии:

y = -2661.16 x + 75.58

Вычисляем ковариацию.

Коэффициент ковариации характеризует степень линейной зависимости двух случайных величин Х и Y и вычисляется по формуле:

Cov (x,y) = ===0.98

корреляция математический экономический линейный

Литература

5. Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. -- 10-е издание, стереотипное. -- Москва: Высшая школа, 2004. -- 479 с. -- ISBN 5-06-004214-6

6. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. -- 4-е издание, переработанное и дополненное. -- Москва: Финансы и Статистика, 2002. -- 480 с. -- ISBN 5-279-01956-9

7. Общая теория статистики: Учебник / Под ред. Р.А. Шмойловой. -- 3-е издание, переработанное. -- Москва: Финансы и Статистика, 2002. -- 560 с. -- ISBN 5-279-01951-8

8. Суслов В.И., Ибрагимов Н.М., Талышева Л.П., Цыплаков А.А. Эконометрия. -- Новосибирск: СО РАН, 2005. -- 744 с. -- ISBN 5-7692-0755-8

Размещено на Allbest.ru

Подобные документы

    Классификация показателей тесноты связи. Основные способы расчета показателей и определение их значимости. Линейный коэффициент корреляции для несгруппированных данных. Принятие решений о тесноте связи на основе линейного коэффициента корреляции.

    презентация , добавлен 16.03.2014

    Назначение рангового коэффициента корреляции, определение силы и направления корреляционной связи между двумя признаками или двумя профилями (иерархиями) признаков. Графическое представление метода ранговой корреляции, расчет эмпирического значения rs.

    презентация , добавлен 12.11.2010

    Порядок построения линейного уравнения парной регрессии, расчет коэффициентов и оценка статической значимости параметров регрессии и корреляции. Точность прогноза. Множественная регрессия и корреляция. Системы эконометрических уравнений. Временные ряды.

    контрольная работа , добавлен 24.09.2013

    Основы линейного регрессионного анализа. Особенности использования функции Кобба-Дугласа. Применение множественной линейной регрессии. Сущность метода наименьших квадратов. Пути избегания ложной корреляции. Проверка значимости коэффициентов регрессии.

    реферат , добавлен 31.10.2009

    Распределение вероятностей случайных величин. Числовые характеристики случайных величин. Смешанные начальный и центральный моменты совместного распределения совокупности случайных величин. Физический смысл понятия корреляции. Модель потока редких событий.

    лекция , добавлен 02.08.2009

    Изучение понятия и сущности коэффициента корреляции, который является одним из методов статистического анализа взаимосвязи нескольких признаков. Отличительные черты экономики Сингапура и Перу. Анализ основных показателей прироста иностранных инвестиций.

    курсовая работа , добавлен 25.06.2010

    Законы распределения случайных величин. Закон распределения Пуассона. Свойства плотности вероятности. Критериальные случайные величины. Свойство коэффициента корреляции. Закон больших чисел и его следствия. Предельные теоремы теории вероятностей.

    курс лекций , добавлен 11.03.2011

    Коэффициент корреляции, его значение и основные характеристики. Связь между двумя переменными. Динамика уровней ряда. Исследование временного ряда. Последовательность коэффициентов автокорреляции уровней первого, второго и последующих порядков.

    курсовая работа , добавлен 06.05.2015

    Оценка силы вариации признака. Построение регрессионной модели. Парный линейный коэффициент корреляции. Оценка статистической надежности результатов. Значение коэффициента детерминации. Оценка силы связи признаков. Фактическое значение критерия Фишера.

    контрольная работа , добавлен 27.05.2015

    Средние статистические величины и аналитическая группировка данных предприятия. Результаты расчета коэффициента Фехнера по цехам. Измерение степени тесноты связи в статистике с помощью показателя корреляции. Поля корреляции и уравнения регрессии для цеха.

​ Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, есть ли линейная связь между изменениями значений двух переменных. В статистических расчетах и выводах коэффициент корреляции обычно обозначается как r xy или R xy .

1. История разработки критерия корреляции

Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон .

2. Для чего используется критерий корреляции Пирсона?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
  2. Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой - определяются при помощи регрессионного анализа .
  3. Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа .
  4. Критерий корреляции Пирсона является параметрическим , в связи с чем условием его применения служит нормальное распределение сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена .
  5. Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью , подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь , означающая, что изменения одного показателя сопровождаются изменениями другого показателя.

В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста , но разного роста , то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.

Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.

4. Как рассчитать коэффициента корреляции Пирсона?

Расчет коэффициента корреляции Пирсона производится по следующей формуле:

5. Как интерпретировать значение коэффициента корреляции Пирсона?

Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение r xy – тем выше теснота связи между двумя величинами. r xy = 0 говорит о полном отсутствии связи. r xy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.

Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения r xy < 0.3 свидетельствуют о слабой связи, значения r xy от 0.3 до 0.7 - о связи средней тесноты, значения r xy > 0.7 - о сильной связи.

Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока :

Оценка статистической значимости коэффициента корреляции r xy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:

Полученное значение t r сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если t r превышает t крит, то делается вывод о статистической значимости выявленной корреляционной связи.

6. Пример расчета коэффициента корреляции Пирсона

Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице.

Коэффициент корреляции (или линейный коэффициент корреляции) обозначается как «r» (в редких случаях как «ρ») и характеризует линейную корреляцию (то есть взаимосвязь, которая задается некоторым значением и направлением) двух или более переменных. Значение коэффициента лежит между -1 и +1, то есть корреляция бывает как положительной, так и отрицательной. Если коэффициент корреляции равен -1, имеет место идеальная отрицательная корреляция; если коэффициент корреляции равен +1, имеет место идеальная положительная корреляция. В остальных случаях между двумя переменными наблюдается положительная корреляция, отрицательная корреляция или отсутствие корреляции. Коэффициент корреляции можно вычислить вручную, с помощью бесплатных онлайн-калькуляторов или с помощью хорошего графического калькулятора.

Шаги

Вычисление коэффициента корреляции вручную

    Соберите данные. Перед тем как приступить к вычислению коэффициента корреляции, изучите данные пары чисел. Лучше записать их в таблицу, которую можно расположить вертикально или горизонтально. Каждую строку или столбец обозначьте как «х» и «у».

    • Например, даны четыре пары значений (чисел) переменных «х» и «у». Можно создать следующую таблицу:
      • x || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  1. Вычислите среднее арифметическое «х». Для этого сложите все значения «х», а затем полученный результат разделите на количество значений.

    • В нашем примере даны четыре значения переменной «х». Чтобы вычислить среднее арифметическое «х», сложите эти значения, а затем сумму разделите на 4. Вычисления запишутся так:
    • μ x = (1 + 2 + 4 + 5) / 4 {\displaystyle \mu _{x}=(1+2+4+5)/4}
    • μ x = 12 / 4 {\displaystyle \mu _{x}=12/4}
    • μ x = 3 {\displaystyle \mu _{x}=3}
  2. Найдите среднее арифметическое «у». Для этого выполните аналогичные действия, то есть сложите все значения «у», а затем сумму разделите на количество значений.

    • В нашем примере даны четыре значения переменной «у». Сложите эти значения, а затем сумму разделите на 4. Вычисления запишутся так:
    • μ y = (1 + 3 + 5 + 7) / 4 {\displaystyle \mu _{y}=(1+3+5+7)/4}
    • μ y = 16 / 4 {\displaystyle \mu _{y}=16/4}
    • μ y = 4 {\displaystyle \mu _{y}=4}
  3. Вычислите стандартное отклонение «х». Вычислив средние значения «х» и «у», найдите стандартные отклонения этих переменных. Стандартное отклонение вычисляется по следующей формуле:

    • σ x = 1 n − 1 Σ (x − μ x) 2 {\displaystyle \sigma _{x}={\sqrt {{\frac {1}{n-1}}\Sigma (x-\mu _{x})^{2}}}}
    • σ x = 1 4 − 1 ∗ ((1 − 3) 2 + (2 − 3) 2 + (4 − 3) 2 + (5 − 3) 2) {\displaystyle \sigma _{x}={\sqrt {{\frac {1}{4-1}}*((1-3)^{2}+(2-3)^{2}+(4-3)^{2}+(5-3)^{2})}}}
    • σ x = 1 3 ∗ (4 + 1 + 1 + 4) {\displaystyle \sigma _{x}={\sqrt {{\frac {1}{3}}*(4+1+1+4)}}}
    • σ x = 1 3 ∗ (10) {\displaystyle \sigma _{x}={\sqrt {{\frac {1}{3}}*(10)}}}
    • σ x = 10 3 {\displaystyle \sigma _{x}={\sqrt {\frac {10}{3}}}}
    • σ x = 1 , 83 {\displaystyle \sigma _{x}=1,83}
  4. Вычислите стандартное отклонение «у». Выполните действия, которые описаны в предыдущем шаге. Воспользуйтесь той же формулой, но подставьте в нее значения «у».

    • В нашем примере вычисления запишутся так:
    • σ y = 1 4 − 1 ∗ ((1 − 4) 2 + (3 − 4) 2 + (5 − 4) 2 + (7 − 4) 2) {\displaystyle \sigma _{y}={\sqrt {{\frac {1}{4-1}}*((1-4)^{2}+(3-4)^{2}+(5-4)^{2}+(7-4)^{2})}}}
    • σ y = 1 3 ∗ (9 + 1 + 1 + 9) {\displaystyle \sigma _{y}={\sqrt {{\frac {1}{3}}*(9+1+1+9)}}}
    • σ y = 1 3 ∗ (20) {\displaystyle \sigma _{y}={\sqrt {{\frac {1}{3}}*(20)}}}
    • σ y = 20 3 {\displaystyle \sigma _{y}={\sqrt {\frac {20}{3}}}}
    • σ y = 2 , 58 {\displaystyle \sigma _{y}=2,58}
  5. Запишите основную формулу для вычисления коэффициента корреляции. В эту формулу входят средние значения, стандартные отклонения и количество (n) пар чисел обеих переменных. Коэффициент корреляции обозначается как «r» (в редких случаях как «ρ»). В этой статье используется формула для вычисления коэффициента корреляции Пирсона.

    • Здесь и в других источниках величины могут обозначаться по-разному. Например, в некоторых формулах присутствуют «ρ» и «σ», а в других «r» и «s». В некоторых учебниках приводятся другие формулы, но они являются математическими аналогами приведенной выше формулы.
  6. Вы вычислили средние значения и стандартные отклонения обеих переменных, поэтому можно воспользоваться формулой для вычисления коэффициента корреляции. Напомним, что «n» – это количество пар значений обеих переменных. Значение других величин были вычислены ранее.

    • В нашем примере вычисления запишутся так:
    • ρ = (1 n − 1) Σ (x − μ x σ x) ∗ (y − μ y σ y) {\displaystyle \rho =\left({\frac {1}{n-1}}\right)\Sigma \left({\frac {x-\mu _{x}}{\sigma _{x}}}\right)*\left({\frac {y-\mu _{y}}{\sigma _{y}}}\right)}
    • ρ = (1 3) ∗ {\displaystyle \rho =\left({\frac {1}{3}}\right)*} [ (1 − 3 1 , 83) ∗ (1 − 4 2 , 58) + (2 − 3 1 , 83) ∗ (3 − 4 2 , 58) {\displaystyle \left({\frac {1-3}{1,83}}\right)*\left({\frac {1-4}{2,58}}\right)+\left({\frac {2-3}{1,83}}\right)*\left({\frac {3-4}{2,58}}\right)}
      + (4 − 3 1 , 83) ∗ (5 − 4 2 , 58) + (5 − 3 1 , 83) ∗ (7 − 4 2 , 58) {\displaystyle +\left({\frac {4-3}{1,83}}\right)*\left({\frac {5-4}{2,58}}\right)+\left({\frac {5-3}{1,83}}\right)*\left({\frac {7-4}{2,58}}\right)} ]
    • ρ = (1 3) ∗ (6 + 1 + 1 + 6 4 , 721) {\displaystyle \rho =\left({\frac {1}{3}}\right)*\left({\frac {6+1+1+6}{4,721}}\right)}
    • ρ = (1 3) ∗ 2 , 965 {\displaystyle \rho =\left({\frac {1}{3}}\right)*2,965}
    • ρ = (2 , 965 3) {\displaystyle \rho =\left({\frac {2,965}{3}}\right)}
    • ρ = 0 , 988 {\displaystyle \rho =0,988}
  7. Проанализируйте полученный результат. В нашем примере коэффициент корреляции равен 0,988. Это значение некоторым образом характеризует данный набор пар чисел. Обратите внимание на знак и величину значения.

    • Так как значение коэффициента корреляции положительно, между переменными «х» и «у» имеет место положительная корреляция. То есть при увеличении значения «х», значение «у» тоже увеличивается.
    • Так как значение коэффициента корреляции очень близко к +1, значения переменных «х» и «у» сильно взаимосвязаны. Если нанести точки на координатную плоскость, они расположатся близко к некоторой прямой.

    Использование онлайн-калькуляторов для вычисления коэффициента корреляции

    1. В интернете найдите калькулятор для вычисления коэффициента корреляции. Этот коэффициент довольно часто вычисляется в статистике. Если пар чисел много, вычислить коэффициент корреляции вручную практически невозможно. Поэтому существуют онлайн-калькуляторы для вычисления коэффициента корреляции. В поисковике введите «коэффициент корреляции калькулятор» (без кавычек).

    2. Введите данные. Ознакомьтесь с инструкциями на сайте, чтобы правильно ввести данные (пары чисел). Крайне важно вводить соответствующие пары чисел; в противном случае вы получите неверный результат. Помните, что на разных веб-сайтах различные форматы ввода данных.

      • Например, на сайте http://ncalculators.com/statistics/correlation-coefficient-calculator.htm значения переменных «х» и «у» вводятся в двух горизонтальных строках. Значения разделяются запятыми. То есть в нашем примере значения «х» вводятся так: 1,2,4,5, а значения «у» так: 1,3,5,7.
      • На другом сайте, http://www.alcula.com/calculators/statistics/correlation-coefficient/ , данные вводятся по вертикали; в этом случае не перепутайте соответствующие пары чисел.
    3. Вычислите коэффициент корреляции. Введя данные, просто нажмите на кнопку «Calculate», «Вычислить» или аналогичную, чтобы получить результат.

      Использование графического калькулятора

      1. Введите данные. Возьмите графический калькулятор, перейдите в режим статистических вычислений и выберите команду «Edit» (Редактировать).

        • На разных калькуляторах нужно нажимать различные клавиши. В этой статье рассматривается калькулятор Texas Instruments TI-86.
        • Чтобы перейти в режим статистических вычислений, нажмите – Stat (над клавишей «+»). Затем нажмите F2 – Edit (Редактировать).
      2. Удалите предыдущие сохраненные данные. В большинстве калькуляторов введенные статистические данные хранятся до тех пор, пока вы не сотрете их. Чтобы не спутать старые данные с новыми, сначала удалите любую сохраненную информацию.

        • С помощью клавиш со стрелками переместите курсор и выделите заголовок «xStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец xStat.
        • С помощью клавиш со стрелками выделите заголовок «yStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец уStat.
      3. Введите исходные данные. С помощью клавиш со стрелками переместите курсор в первую ячейку под заголовком «xStat». Введите первое значение и нажмите Enter. В нижней части экрана отобразится «xStat (1) = __», где вместо пробела будет стоять введенное значение. После того как вы нажмете Enter, введенное значение появится в таблице, а курсор переместится на следующую строку; при этом в нижней части экрана отобразится «xStat (2) = __».

        • Введите все значения переменной «х».
        • Введя все значения переменной «х», с помощью клавиш со стрелками перейдите в столбец yStat и введите значения переменной «у».
        • После ввода всех пар чисел нажмите Exit (Выйти), чтобы очистить экран и выйти из режима статистических вычислений.
      4. Вычислите коэффициент корреляции. Он характеризует, насколько близко данные расположены к некоторой прямой. Графический калькулятор может быстро определить подходящую прямую и вычислить коэффициент корреляции.

        • Нажмите Stat (Статистика) – Calc (Вычисления). На TI-86 нужно нажать – – .
        • Выберите функцию «Linear Regression» (Линейная регрессия). На TI-86 нажмите , которая обозначена как «LinR». На экране отобразится строка «LinR _» с мигающим курсором.
        • Теперь введите имена двух переменных: xStat и yStat.
          • На TI-86 откройте список имен; для этого нажмите – – .
          • В нижней строке экрана отобразятся доступные переменные. Выберите (для этого, скорее всего, нужно нажать F1 или F2), введите запятую, а затем выберите .
          • Нажмите Enter, чтобы обработать введенные данные.
      5. Проанализируйте полученные результаты. Нажав Enter, на экране отобразится следующая информация:

        • y = a + b x {\displaystyle y=a+bx} : это функция, которая описывает прямую. Обратите внимание, что функция записана не в стандартной форме (у = kх + b).
        • a = {\displaystyle a=} . Это координата «у» точки пересечения прямой с осью Y.
        • b = {\displaystyle b=} . Это угловой коэффициент прямой.
        • corr = {\displaystyle {\text{corr}}=} . Это коэффициент корреляции.
        • n = {\displaystyle n=} . Это количество пар чисел, которое было использовано в вычислениях.