Доверительный интервал для математического ожидания нормального распределения. Доверительный интервал для оценки среднего (дисперсия известна) в MS EXCEL
Доверительный интервал для математического ожидания - это такой вычисленный по данным интервал, который с известной вероятностью содержит математическое ожидание генеральной совокупности. Естественной оценкой для математического ожидания является среднее арифметическое её наблюденных значений. Поэтому далее в течение урока мы будем пользоваться терминами "среднее", "среднее значение". В задачах рассчёта доверительного интервала чаще всего требуется ответ типа "Доверительный интервал среднего числа [величина в конкретной задаче] находится от [меньшее значение] до [большее значение]". С помощью доверительного интервала можно оценивать не только средние значения, но и удельный вес того или иного признака генеральной совокупности. Средние значения, дисперсия, стандартное отклонение и погрешность, через которые мы будем приходить к новым определениям и формулам, разобраны на уроке Характеристики выборки и генеральной совокупности .
Точечная и интервальная оценки среднего значения
Если среднее значение генеральной совокупности оценивается числом (точкой), то за оценку неизвестной средней величины генеральной совокупности принимается конкретное среднее, которое рассчитано по выборке наблюдений. В таком случае значение среднего выборки - случайной величины - не совпадает со средним значением генеральной совокупности. Поэтому, указывая среднее значение выборки, одновременно нужно указывать и ошибку выборки. В качестве меры ошибки выборки используется стандартная ошибка , которая выражена в тех же единицах измерения, что и среднее. Поэтому часто используется следующая запись: .
Если оценку среднего требуется связать с определённой вероятностью, то интересующий параметр генеральной совокупности нужно оценивать не одним числом, а интервалом. Доверительным интервалом называют интервал, в котором с определённой вероятностью P находится значение оцениваемого показателя генеральной совокупности. Доверительный интервал, в котором с вероятностью P = 1 - α находится случайная величина , рассчитывается следующим образом:
,
α = 1 - P , которое можно найти в приложении к практически любой книге по статистике.
На практике среднее значение генеральной совокупности и дисперсия не известны, поэтому дисперсия генеральной совокупности заменяется дисперсией выборки , а среднее генеральной совокупности - средним значением выборки . Таким образом, доверительный интервал в большинстве случаев рассчитывается так:
.
Формулу доверительного интервала можно использовать для оценки среднего генеральной совокупности, если
- известно стандартное отклонение генеральной совокупности;
- или стандартное отклонение генеральной совокупности не известно, но объём выборки - больше 30.
Среднее значение выборки является несмещённой оценкой среднего генеральной совокупности . В свою очередь, дисперсия выборки не является несмещённой оценкой дисперсии генеральной совокупности . Для получения несмещённой оценки дисперсии генеральной совокупности в формуле дисперсии выборки объём выборки n следует заменить на n -1.
Пример 1. Собрана информация из 100 случайно выбранных кафе в некотором городе о том, что среднее число работников в них составляет 10,5 со стандартным отклонением 4,6. Определить доверительный интервал 95% числа работников кафе.
где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .
Таким образом, доверительный интервал 95% среднего числа работников кафе составил от 9,6 до 11,4.
Пример 2. Для случайной выборки из генеральной совокупности из 64 наблюдений вычислены следующие суммарные величины:
сумма значений в наблюдениях ,
сумма квадратов отклонения значений от среднего .
Вычислить доверительный интервал 95 % для математического ожидания.
вычислим стандартное отклонение:
,
вычислим среднее значение:
.
Подставляем значения в выражение для доверительного интервала:
где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .
Получаем:
Таким образом, доверительный интервал 95% для математического ожидания данной выборки составил от 7,484 до 11,266.
Пример 3. Для случайной выборки из генеральной совокупности из 100 наблюдений вычислено среднее значение 15,2 и стандартное отклонение 3,2. Вычислить доверительный интервал 95 % для математического ожидания, затем доверительный интервал 99 %. Если мощность выборки и её вариация остаются неизменными, а увеличивается доверительный коэффициент, то доверительный интервал сузится или расширится?
Подставляем данные значения в выражение для доверительного интервала:
где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .
Получаем:
.
Таким образом, доверительный интервал 95% для среднего данной выборки составил от 14,57 до 15,82.
Вновь подставляем данные значения в выражение для доверительного интервала:
где - критическое значение стандартного нормального распределения для уровня значимости α = 0,01 .
Получаем:
.
Таким образом, доверительный интервал 99% для среднего данной выборки составил от 14,37 до 16,02.
Как видим, при увеличении доверительного коэффициента увеличивается также критическое значение стандартного нормального распределения, а, следовательно, начальная и конечная точки интервала расположены дальше от среднего, и, таким образом, доверительный интервал для математического ожидания увеличивается.
Точечная и интервальная оценки удельного веса
Удельный вес некоторого признака выборки можно интерпретировать как точечную оценку удельного веса p этого же признака в генеральной совокупности. Если же эту величину нужно связать с вероятностью, то следует рассчитать доверительный интервал удельного веса p признака в генеральной совокупности с вероятностью P = 1 - α :
.
Пример 4. В некотором городе два кандидата A и B претендуют на пост мэра. Случайным образом были опрошены 200 жителей города, из которых 46% ответили, что будут голосовать за кандидата A , 26% - за кандидата B и 28% не знают, за кого будут голосовать. Определить доверительный интервал 95% для удельного веса жителей города, поддерживающих кандидата A .
Пусть случайная величина (можно говорить о генеральной совокупности) распределена по нормальному закону, для которого известна дисперсия D = 2 (> 0). Из генеральной совокупности (на множестве объектов которой определена случайная величина) делается выборка объема n. Выборка x 1 , x 2 ,..., x n рассматривается как совокупность n независимых случайных величин, распределенных так же как (подход, которому дано объяснение выше по тексту).
Ранее также обсуждались и доказаны следующие равенства:
Mx 1 = Mx 2 = ... = Mx n = M;
Dx 1 = Dx 2 = ... = Dx n = D;
Достаточно просто доказать (мы доказательство опускаем), что случайная величина в данном случае также распределена по нормальному закону.
Обозначим неизвестную величину M через a и подберем по заданной надежности число d > 0 так, чтобы выполнялось условие:
P(- a < d) = (1)
Так как случайная величина распределена по нормальному закону с математическим ожиданием M = M = a и дисперсией D = D /n = 2 /n, получаем:
P(- a < d) =P(a - d < < a + d) =
Осталось подобрать d таким, чтобы выполнялось равенство
Для любого можно по таблице найти такое число t, что(t)= / 2. Это число t иногда называют квантилем .
Теперь из равенства
определим значение d:
Окончательный результат получим, представив формулу (1) в виде:
Смысл последней формулы состоит в следующем: с надежностью доверительный интервал
покрывает неизвестный параметр a = M генеральной совокупности. Можно сказать иначе: точечная оценка определяет значение параметра M с точностью d= t / и надежностью.
Задача. Пусть имеется генеральная совокупность с некоторой характеристикой, распределенной по нормальному закону с дисперсией, равной 6,25. Произведена выборка объема n = 27 и получено средневыборочное значение характеристики = 12. Найти доверительный интервал, покрывающий неизвестное математическое ожидание исследуемой характеристики генеральной совокупности с надежностью =0,99.
Решение. Сначала по таблице для функции Лапласа найдем значение t из равенства (t) = / 2 = 0,495. По полученному значению t = 2,58 определим точность оценки (или половину длины доверительного интервала) d: d = 2,52,58 / 1,24. Отсюда получаем искомый доверительный интервал: (10,76; 13,24).
статистический гипотеза генеральный вариационный
Доверительный интервал для математического ожидания нормального распределения при неизвестной дисперсии
Пусть - случайная величина, распределенная по нормальному закону с неизвестным математическим ожиданием M, которое обозначим буквой a . Произведем выборку объема n. Определим среднюю выборочную и исправленную выборочную дисперсию s 2 по известным формулам.
Случайная величина
распределена по закону Стьюдента с n - 1 степенями свободы.
Задача заключается в том, чтобы по заданной надежности и по числу степеней свободы n - 1 найти такое число t , чтобы выполнялось равенство
или эквивалентное равенство
Здесь в скобках написано условие того, что значение неизвестного параметра a принадлежит некоторому промежутку, который и является доверительным интервалом. Его границы зависят от надежности, а также от параметров выборки и s.
Чтобы определить значение t по величине, равенство (2) преобразуем к виду:
Теперь по таблице для случайной величины t, распределенной по закону Стьюдента, по вероятности 1 - и числу степеней свободы n - 1 находим t. Формула (3) дает ответ поставленной задачи.
Задача. На контрольных испытаниях 20-ти электроламп средняя продолжительность их работы оказалась равной 2000 часов при среднем квадратическом отклонении (рассчитанном как корень квадратный из исправленной выборочной дисперсии), равном 11-ти часам. Известно, что продолжительность работы лампы является нормально распределенной случайной величиной. Определить с надежностью 0,95 доверительный интервал для математического ожидания этой случайной величины.
Решение. Величина 1 - в данном случае равна 0,05. По таблице распределения Стьюдента, при числе степеней свободы, равном 19, находим: t = 2,093. Вычислим теперь точность оценки: 2,093121/ = 56,6. Отсюда получаем искомый доверительный интервал: (1943,4; 2056,6).
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ
1. Пусть известно, что сл. величина x подчиняется нормальному закону с неизвестным средним μ и известной σ 2: X~N(μ,σ 2 ), σ 2 задано, μ не известно. Задано β. По выборке x 1, x 2, … , x n надо построить I β (θ) (сейчас θ=μ), удовлетворяющий (13)
Выборочное среднее (говорят также выборочная средняя) подчиняется нормальному закону с тем же центром μ, но меньшей дисперсией X~N (μ , D ), где дисперсией D =σ 2 =σ 2 /n.
Нам понадобится число К β , определяемое для ξ~N(0,1) условием
Словами: между точками -К β и К β оси абсцисс лежит площадь под кривой плотности стандартного нормального закона, равная β
Например, К 0,90 =1,645 квантиль уровня 0,95 величины ξ
K 0,95 = 1,96. ; К 0,997 =3 .
В частности, отложив от центра любого нормального закона 1,96 стандартных отклонений вправо и столько же влево, мы захватим площадь под кривой плотности, равную 0.95, в силу чего К 0 95 является квантилью уровня 0,95 + 1/2*0,005 = 0,975 для этого закона.
Искомый доверительный интервал для генерального среднего μ есть I А (μ) = (х-σ, х+σ),
где δ = (15)
Дадим обоснование:
По сказанному, сл. величина в интервал J=μ±σ попадает с вероятностью β (рис.9). В этом случае величина отклоняется от центра μ меньше, чем на δ , и случайный интервал ± δ (со случайным центром и такой же как у J ширины) накроет точку μ. То есть Є J <=> μ Є I β , а потому Р{μЄІ β } = Р{ Є J }=β.
Итак, постоянный по выборке интервал I β содержит среднее μ с вероятностью β.
Ясно, чем больше n, тем меньше σ и уже интервал, а чем больше мы берем гарантию β, тем доверительный интервал шире.
Пример 21.
По выборке с n=16 для нормальной величины с известной дисперсией σ 2 =64 найдено х=200. Построить доверительный интервал для генерального среднего (иначе говоря, для математического ожидания) μ, приняв β=0,95.
Решение. I β (μ)= ± δ, где δ = К β σ/ -> К β σ/ =1.96*8/ = 4
I 0.95 (μ)=200 4=(196;204).
Делая вывод, что с гарантией β=0,95 истинное среднее принадлежат интервалу (196,204), мы понимаем, что возможна ошибка.
Из 100 доверительных интервалов I 0. 95 (μ) в среднем 5 не содержат μ.
Пример 22.
Каким в условиях предыдущего примера 21 следует взять n, чтобы вдвое сузить доверительный интервал? Чтобы иметь 2δ=4, надо взять
На практике часто пользуются односторонними доверительными интервалами. Так, если полезны или не страшны высокие значения μ, но не.приятны низкие, как в случае с прочностью или надежностью, то резонно строить односторонний интервал. Для этого следует максимально поднять его верхнюю границу. Если мы построим, как в примере 21, двусторонний доверительный интервал для заданного β, а затем максимально расширим его за счет одной из границ, то получим односторонний интервал с большей гарантией β" = β + (1-β) / 2 = (1+β)/2, например, если β = 0,90, то β = 0,90 + 0,10/2 = 0,95.
Например, будем считать, что речь идет о прочности изделия и поднимем верхнюю границу интервала до . Тогда для μ в примере 21 получим односторонний доверительный интервал (196,°°) с нижней границей 196 и доверительной вероятностью β"=0,95+0,05/2=0,975.
Практическим недостатком формулы (15)_является то, что она выведена в предположении, что дисперсия = σ 2 (отсюда и = σ 2 /n) известна; а это бывает в жизни редко. Исключение составляет случай, когда объем выборки велик, скажем, n измеряется сотнями или тысячами и тогда за σ 2 можно практически принять ее оценку s 2 или .
Пример 23.
Положим, в некотором большом городе в результате выборочного обследования жилищных условий жителей получена следующая таблица данных (пример из работы ).
Таблица 8
Исходные данные к примеру
Естественно допустить, что сл. величина X - общая (полезная) площадь (в м 2), приходящаяся на одного человека подчиняется нормальному закону. Среднее μ и дисперсия σ 2 не известны. Для μ требуется построить 95%-ный доверительный интервал. Чтобы по группированным данным найти выборочные средние и дисперсию, составим следующую таблицу выкладок (табл.9).
Таблица 9
Вычисления X и 5 по сгруппированным данным
N группы з | Общая площадь в расчете на 1 человека, м 2 | Число жителей в группе г j | Середина интервала x j | r j x j | rjxj 2 |
До 5.0 | 2.5 | 20.0 | 50.0 | ||
5.0-10.0 | 7.5 | 712.5 | 5343.75 | ||
10.0-15.0 | 12.5 | 2550.0 | 31875.0 | ||
15.0-20.0 | 17.5 | 4725.0 | 82687.5 | ||
20.0-25.0 | 22.5 | 4725.0 | 106312.5 | ||
25.0-30.0 | 27.5 | 3575.0 | 98312.5 | ||
более 30.0 | 32.5 * | 2697.5 | 87668.75 | ||
- | 19005.0 | 412250.0 |
В этой вспомогательной таблице по формуле (2) подсчитаны первый и второй начальные статистические моменты а 1 и а 2
Хотя дисперсия σ 2 здесь неизвестна, из-за большого объема выборки можно практически применить формулу (15), положив в ней σ= =7.16.
Тогда δ=k 0.95 σ/ =1.96*7.16/ =0.46.
Доверительный интервал для генерального среднего при β=0,95 равен I 0.95 (μ) = ± δ = 19 ± 0.46 = (18.54; 19.46).
Следовательно, среднее значение площади на одного человека в данном городе с гарантией 0.95 лежит в промежутке (18.54; 19.46).
2. Доверительный интервал для математического ожидания μ в случае неизвестной дисперсии σ 2 нормальной величины. Этот интервал для заданной гарантии β строится по формуле ,где ν = n-1 ,
(16)
Коэффициент t β,ν имеет тот же смысл для t – распределения с ν степенями свободы, что к β для распределения N(0,1), а именно:
.
Другими словами, сл. Величина tν попадает в интервал (-t β,ν ; +t β,ν) с вероятностью β. Значения t β,ν даны в табл.10 для β=0.95 и β=0.99.
Таблица 10.
Значения t β,ν
Возвращаясь к примеру 23, видим, что в нем доверительный интервал был построен по формуле (16) с коэффициентом t β,υ =k 0..95 =1.96, т. к. n=1000.
Пусть случайая величина Х генеральной совокупности распределена нормально, учитывая, что дисперсия и среднее квадратическое отклонение s этого распределения известны. Требуется оценить неизвестное математическое ожидание по выборочной средней. В данном случае задача сводится к нахождению доверительного интервала для математического ожидания с надёжностью b. Если задаться значением доверительной вероятности (надёжности) b, то можно найти вероятность попадания в интервал для неизвестного математического ожидания, используя формулу (6.9а):
где Ф(t ) – функция Лапласа (5.17а).
В результате можно сформулировать алгоритм отыскания границ доверительного интервала для математического ожидания, если известна дисперсия D = s 2:
- Задать значение надёжности – b .
- Из (6.14) выразить Ф(t) = 0,5× b. Выбрать значение t из таблицы для функции Лапласа по значению Ф(t) (см. Приложение 1).
- Вычислить отклонение e по формуле (6.10).
- Записать доверительный интервал по формуле (6.12) такой, что с вероятностью b выполняется неравенство:
. |
Пример 5 .
Случайная величина Х имеет нормальное распределение. Найти доверительные интервалы для оценки с надежностью b = 0,96 неизвестного математического ожидания а, если даны:
1) генеральное среднее квадратическое отклонение s = 5;
2) выборочная средняя ;
3) объём выборки n = 49.
В формуле (6.15) интервальной оценки математического ожидания а с надёжностью b все величины, кроме t, известны. Значение t можно найти, используя (6.14): b = 2Ф(t) = 0,96. Ф(t) = 0,48.
По таблице Приложения 1 для функции Лапласа Ф(t) = 0,48 находят соответствующее значение t = 2,06. Следовательно, . Подставив в формулу (6.12) вычисленное значение e, можно получить доверительный интервал: 30-1,47 < a < 30+1,47.
Искомый доверительный интервал для оценки с надёжностью b = 0,96 неизвестного математического ожидания равен: 28,53 < a < 31,47.
Пусть CB X образуют генеральную совокупность и в — неизвестный параметр CB X. Если статистическая оценка в * является состоятельной, то чем больше объем выборки, тем точнее получаем значение в. Однако на практике мы имеем выборки не очень большого объема, поэтому не можем гарантировать большую точность.
Пусть в* — статистическая оценка для в. Величина |в* - в| называется точностью оценки. Ясно, что точность является CB, т. к. в* — случайная величина. Зададим малое положительное число 8 и потребуем, чтобы точность оценки |в* - в| была меньше 8, т. е. | в* - в | < 8.
Надежностью g или доверительной вероятностью оценки в по в * называется вероятность g, с которой осуществляется неравенство |в * - в| < 8, т. е.
Обычно надежность g задают наперед, причем, за g берут число, близкое к 1 (0,9; 0,95; 0,99; ...).
Так как неравенство |в * - в| < S равносильно двойному неравенству в* - S < в < в* + 8, то получаем:
Интервал (в * - 8, в* + 5) называется доверительным интервалом, т. е. доверительный интервал покрывает неизвестный параметр в с вероятностью у. Заметим, что концы доверительного интервала являются случайными и изменяются от выборки к выборке, поэтому точнее говорить, что интервал (в * - 8, в * + 8) покрывает неизвестный параметр в, а не в принадлежит этому интервалу.
Пусть генеральная совокупность задана случайной величиной X, распределенной по нормальному закону, причем, среднее квадратическое отклонение а известно. Неизвестным является математическое ожидание а = М (X). Требуется найти доверительный интервал для а при заданной надежности у.
Выборочная средняя
является статистической оценкой для хг = а.
Теорема. Случайная величина хВ имеет нормальное распределение, если X имеет нормальное распределение, и М (ХВ) = а,
А (XВ) = а, где а = у/Б (X), а = М (X). л/и
Доверительный интервал для а имеет вид:
Находим 8.
Пользуясь соотношением
где Ф(г) — функция Лапласа, имеем:
Р { | XВ - а | <8} = 2Ф
таблице значений функции Лапласа находим значение t.
Обозначив
T, получим F(t) = g Так как g задана, то по
Из равенстваНаходим— точность оценки.
Значит, доверительный интервал для а имеет вид:
Если задана выборка из генеральной совокупности X
нГ | к" | X2 | Xm |
n. | n1 | n2 | nm |
n = U1 + ... + nm, то доверительный интервал будет:
Пример 6.35. Найти доверительный интервал для оценки математического ожидания а нормального распределения с надежностью 0,95, зная выборочную среднюю Xb = 10,43, объем выборки n = 100 и среднее квадратическое отклонение s = 5.
Воспользуемся формулой