Калькулятор расчета репрезентативной выборки. Формула выборки - простая. Нулевая и альтернативная гипотезы

Если в условии задачи есть ограничения со знаком ≥, то их можно привести к виду ∑a ji b j , умножив обе части неравенства на -1. Введем m дополнительных переменных x n+j ≥0(j =1,m ) и преобразуем ограничения к виду равенств

(2)

Предположим, что все исходные переменные задачи x 1 , x 2 ,..., x n – небазисные. Тогда дополнительные переменные будут базисными, и частное решение системы ограничений имеет вид

x 1 = x 2 = ... = x n = 0, x n+ j = b j , j =1,m . (3)

Так как при этом значение функции цели F 0 = 0 , можно представить F(x) следующим образом:

F(x)=∑c i x i +F 0 =0 (4)

Начальная симплекс-таблица (симплекс-табл. 1) составляется на основании уравнений (2) и (4). Если перед дополнительными переменными x n+j стоит знак «+», как в (2), то все коэффициенты перед переменными x i и свободный член b j заносятся в симплекс-таблицу без изменения. Коэффициенты функции цели при ее максимизации заносятся в нижнюю строку симплекс-таблицы с противоположными знаками. Свободные члены в симплекс-таблице определяют решение задачи.

Алгоритм решения задачи следующий:

1-й шаг. Просматриваются элементы столбца свободных членов. Если все они положительные, то допустимое базисное решение найдено и следует перейти к шагу 5 алгоритма, соответствующему нахождению оптимального решения. Если в начальной симплекс-таблице есть отрицательные свободные члены, то решение не является допустимым и следует перейти к шагу 2.

2-й шаг. Для нахождения допустимого решения осуществляется , при этом нужно решать, какую из небазисных переменных включить в базис и какую переменную вывести из базиса.

Таблица 1.

x n
базисные переменные Свободные члены в ограничениях Небазисные переменные
x 1 x 2 ... x l ...
x n+1 b 1 a 11 a 12 ... a 1l ... a 1n
x n+2 b 2 a 21 a 22 ... a 2l ... a 2n
. . . . . . . .
. . . . . . . .
. . . . . . . .
x n+r b2 a r1 a r2 ... a rl ... a rn
. . . . . . . .
. . . . . . . .
. . . . . . . .
x n+m b m a m1 a m2 ... a ml ... a mn
F(x) max F 0 -c 1 -c 2 ... -c 1 ... -c n

Для этого выбирают любой из отрицательных элементов столбца свободных членов (пусть это будет b 2 ведущим, или разрешающим. Если в строке с отрицательным свободным членом нет отрицательных элементов, то система ограничений несовместна и задача не имеет решения.

Одновременно из БП исключается та переменная, которая первой изменит знак при увеличении выбранной НП x l . Это будет x n+r , индекс r которой определяется из условия

т.е. та переменная, которой соответствует наименьшее отношение свободного члена к элементу выбранного ведущего столбца. Это отношение называется симплексным отношением. Следует рассматривать только положительные симплексные отношения.

Строка, соответствующая переменной x n+r , называется ведущей, или разрешающей. Элемент симплекс-таблицы a rl , стоящий на пересечении ведущей строки и ведущего столбца, называется ведущим, или разрешающим элементом. Нахождением ведущего элемента заканчивается работа с каждой очередной симплекс-таблицей.

3-й шаг. Рассчитывается новая симплекс-таблица, элементы которой пересчитываются из элементов симплекс-таблицы предыдущего шага и помечаются штрихом, т.е. b" j , a" ji , c" i , F" 0 . Пересчет элементов производится по следующим формулам:

Сначала в новой симплекс-таблице заполнятся строка и столбец, которые в предыдущей симплекс-таблице были ведущими. Выражение (5) означает, что элемент a" rl на месте ведущего равен обратной величине элемента предыдущей симплекс-таблицы. Элементы строки a ri делятся на ведущий элемент, а элементы столбца a jl также делятся на ведущий элемент, но берутся с противоположным знаком. Элементы b" r и c" l рассчитываются по тому же принципу.

Остальные формулы легко записать с помощью .

Прямоугольник строится по старой симплекс-таблице таким образом, что одну из его диагоналей образует пересчитываемый (a ji) и ведущий (a rl) элементы (рис. 1). Вторая диагональ определяется однозначно. Для нахождения нового элемента a" ji из элемента a ji вычитается (на это указывает знак « – » у клетки) произведение элементов противоположной диагонали, деленное на ведущий элемент. Аналогично пересчитываются элементы b" j , (j≠r) и c" i , (i≠l).

4-й шаг. Анализ новой симплекс-таблицы начинается с 1-го шага алгоритма. Действие продолжается, пока не будет найдено допустимое базисное решение, т.е. все элементы столбца свободных членов должны быть положительными.

5-й шаг. Считаем, что допустимое базисное решение найдено. Просматриваем коэффициенты строки функции цели F(x) . Признаком оптимальности симплекс-таблицы является неотрицательность коэффициентов при небазисных переменных в F-строке.

Рис. 1. Правило прямоугольника

Если среди коэффициентов F-строки имеются отрицательные (за исключением свободного члена), то нужно переходить к другому базисному решению. При максимизации функции цели в базис включается та из небазисных переменных (например x l), столбцу которой соответствует максимальное абсолютное значение отрицательного коэффициента c l в нижней строке симплекс-таблицы. Это позволяет выбрать ту переменную, увеличение которой приводит к улучшению функции цели. Столбец, соответствующий переменной x l , называется ведущим. Одновременно из базиса исключается та переменная x n+r , индекс r которой определяется минимальным симплексным отношением:

Строка, соответствующая x n+r , называется ведущей , а элемент симплекс-таблицы a rl , стоящий на пересечении ведущей строки и ведущего столбца, называется ведущим элементом.

6-й шаг. по правилам, изложенным на 3-м шаге. Процедура продолжается до тех пор, пока не будет найдено оптимальное решение или сделан вывод, что оно не существует.

Если в процессе оптимизации решения в ведущем столбце все элементы неположительные, то ведущую строку выбрать невозможно. В этом случае функция в области допустимых решений задачи не ограничена сверху и F max ->&∞.

Если же на очередном шаге поиска экстремума одна из базисных переменных становится равной нулю, то соответствующее базисное решение называется вырожденным. При этом возникает так называемое зацикливание, характеризующееся тем, что с определенной частотой начинает повторяться одинаковая комбинация БП (значение функции F при этом сохраняется) и невозможно перейти к новому допустимому базисному решению. Зацикливание является одним из основных недостатков симплекс-метода, но встречается сравнительно редко. На практике в таких случаях обычно отказываются от ввода в базис той переменной, столбцу которой соответствует максимальное абсолютное значение отрицательного коэффициента в функции цели, и производят случайный выбор нового базисного решения.

Пример 1. Решить задачу

max{F(x) = -2x 1 + 5x 2 | 2x 1 + x 2 ≤7; x 1 + 4x 2 ≥8; x 2 ≤4; x 1,2 ≥0}

Симплексным методом и дать геометрическую интерпретацию процесса решения.

Графическая интерпретация решения задачи представлена на рис. 2. Максимальное значение функции цели достигается в вершине ОДЗП с координатами . Решим задачу с помощью симплекс-таблиц. Умножим второе ограничение на (-1) и введём дополнительные переменные, чтобы неравенства привести к виду равенств, тогда

Исходные переменные x 1 и x 2 принимаем в качестве небазисных, а дополнительные x 3 , x 4 и x 5 считаем базисными и составляем симплекс-таблицу(симплекс-табл. 2). Решение, соответствующее симплекс-табл. 2, не является допустимым; ведущий элемент обведен контуром и выбран в соответствии с шагом 2 приведенного ранее алгоритма. Следующая симплекс-табл. 3 определяет допустимое базисное решение, ему соответствует вершина ОДЗП на рис. 2 Ведущий элемент обведен контуром и выбран в соответствии с 5-м шагом алгоритма решения задачи. Табл. 4 соответствует оптимальному решению задачи, следовательно: x 1 = x 5 = 0; x 2 = 4; x 3 = 3; x 4 = 8; F max = 20.

Рис. 2. Графическое решение задачи

Краткая теория

Для решения задач линейного программирования предложено немало различных методов. Однако наиболее эффективным и универсальным среди них оказался симплекс-метод. При этом следует отметить, что при решении некоторых задач могут оказаться более эффективными другие методы. Например, при ЗЛП с двумя переменными оптимальным является , а при решении - метод потенциалов. Симплекс-метод является основным и применимым к любой ЗПЛ в канонической форме.

В связи с основной теоремой линейного программирования естественно возникает мысль о следующем пути решения ЗЛП с любым числом переменных. Найти каким-нибудь способом все крайние точки многогранника планов (их не больше, чем ) и сравнить в них значения целевой функции. Такой путь решения даже с относительно небольшим числом переменных и ограничений практически неосуществим, так как процесс отыскания крайних точек сравним по трудности с решением исходной задачи, к тому же число крайних точек многогранника планов может оказаться весьма большим. В связи с этими трудностями возникла задача рационального перебора крайних точек.

Суть симплексного метода в следующем. Если известны какая-нибудь крайняя точка и значение в ней целевой функции, то все крайние точки, в которых целевая функция принимает худшее значение, заведомо не нужны. Отсюда естественно стремление найти способ перехода от данной крайней точки к смежной по ребру лучшей, от нее к еще лучшей (не худшей) и т. д. Для этого нужно иметь признак того, что лучших крайних точек, чем данная крайняя точка, вообще нет. В этом и состоит общая идея наиболее широко применяемого в настоящее время симплексного метода (метода последовательного улучшения плана) для решения ЗЛП. Итак, в алгебраических терминах симплексный метод предполагает:

  1. умение находить начальный опорный план;
  2. наличие признака оптимальности опорного плана;
  3. умение переходить к нехудшему опорному плану.

Пример решения задачи

Условие задачи

Для реализации трех групп товаров коммерческое предприятие располагает тремя видами ограниченных материально-денежных ресурсов в количестве , , , единиц. При этом для продажи 1 группы товаров на 1 тыс. руб. товарооборота расходуется ресурса первого вида в количестве единиц, ресурса второго вида в количестве единиц, ресурса третьего вида в количестве единиц. Для продажи 2 и 3 групп товаров на 1 тыс. руб. товарооборота расходуется соответственно ресурса первого вида в количестве , единиц, ресурсов второго вида в количестве , единиц, ресурсов третьего вида в количестве , единиц. Прибыль от продажи трех групп товаров на 1 тыс. руб. товарооборота составляет соответственно , , тыс. руб.

  • Определить плановый объем и структуру товарооборота так, чтобы прибыль торгового предприятия была максимальной.
  • К прямой задаче планирования товарооборота, решаемой симплексным методом, составить двойственную задачу линейного программирования.
  • Установить сопряженные пары переменных прямой и двойственной задач.
  • Согласно сопряженным парам переменных из решения прямой задачи получить решение двойственной задачи, в которой производится оценка ресурсов, затраченных на продажу товаров.

Если ваш допуск к сессии зависит от решения блока задач, а у вас нет ни времени, ни желания садиться за расчёты – используйте возможности сайта сайт. Заказ задач – дело нескольких минут. Подробно (как оставить заявку, цены, сроки, способы оплаты) можно почитать на странице Купить решение задач по линейному программированию...

Решение задачи

Построение модели

Через обозначим товарооборот 1-го, 2-го и третьего вида товаров соответственно.

Тогда целевая функция, выражающая получаемую прибыль:

Ограничения по материально-денежным ресурсам:

Кроме того, по смыслу задачи

Получаем следующую задачу линейного программирования:

Приведение к каноническому виду ЗЛП

Приведем задачу к каноническому виду. Для преобразования неравенств в равенства введем дополнительные переменные . Переменные входят в ограничения с коэффициентом 1. В целевую функцию все дополнительные переменные введем с коэффициентом, равным нулю.

Ограничение имеет предпочтительный вид, если при неотрицательности правой части левая часть имеет переменную, входящую с коэффициентом, равным единице, а остальные ограничения-равенства - с коэффициентом, равным нулю. В нашем случае 1-е, 2-е, 3-е ограничения имеют предпочтительный вид с соответствующими базисными переменными .

Решение симплекс-методом

Заполняем симплексную таблицу 0-й итерации.

БП Симплексные
отношения
8 6 4 0 0 0 0 520 16 18 9 1 0 0 65/2 0 140 7 7 2 0 1 0 20 0 810 9 2 1 0 0 1 90 0 -8 -6 -4 0 0 0

Так как мы решаем задачу на максимум – наличие в индексной строке отрицательных чисел при решении задачи на максимум свидетельствует о том, что нами оптимальное решение не получено и что от таблицы 0-й итерации необходимо перейти к следующей.

Переход к следующей итерации осуществляем следующим образом:

Ведущий столбец соответствует .

Ключевая строка определяется по минимуму соотношений свободных членов и членов ведущего столбца (симплексных отношений):

На пересечении ключевого столбца и ключевой строки находим разрешающий элемент, т.е.7.

Теперь приступаем к составлению 1-й итерации. Вместо единичного вектора вводим вектор .

В новой таблице на месте разрешающего элемента пишем 1, все остальные элементы ключевого столбца –нули. Элементы ключевой строки делятся на разрешающий элемент. Все остальные элементы таблицы вычисляются по правилу прямоугольника.

Получаем таблицу 1-й итерации:

БП Симплексные
отношения
8 6 4 0 0 0 0 200 0 2 31/7 1 -16/7 0 1400/31 8 20 1 1 2/7 0 1/7 0 70 0 630 0 -7 -11/7 0 -9/7 1 - 160 0 2 -12/7 0 8/7 0

Ключевой столбец для 1-й итерации соответствует .

Находим ключевую строку, для этого определяем:

На пересечении ключевого столбца и ключевой строки находим разрешающий элемент, т.е. 31/7.

Вектор выводим из базиса и вводим вектор .

Получаем таблицу 2-й итерации:

БП Симплексные
отношения
8 6 4 0 0 0 4 1400/31 0 14/31 1 7/31 -16/31 0 8 220/31 1 27/31 0 -2/31 9/31 0 0 21730/31 0 -195/31 0 11/31 -65/31 1 7360/31 0 86/31 0 12/31 8/31 0

В индексной строке все члены неотрицательные, поэтому получено следующее решение задачи линейного программирования (выписываем из столбца свободных членов):

Таким образом, необходимо продавать 7,1 тыс.р. товара 1-го вида и 45,2 тыс.р. товара 3-го вида. Товар 2-го вида продавать невыгодно. При этом прибыль будет максимальна и составит 237,4 тыс.р. При реализации оптимального плана остаток ресурса 3-го вида составит 701 ед.

Двойственная задача ЛП

Запишем модель двойственной задачи.

Для построения двойственной задачи необходимо пользоваться следующими правилами:

1) если прямая задача решается на максимум, то двойственная - на минимум, и наоборот;

2) в задаче на максимум ограничения-неравенства имеют смысл ≤, а в задаче минимизации - смысл ≥;

3) каждому ограничению прямой задачи соответствует переменная двойственной задачи, и наоборот, каждому ограничению двойственной задачи соответствует переменная прямой задачи;

4) матрица системы ограничений двойственной задачи получается из матрицы системы ограничений исходной задачи транспонированием;

5) свободные члены системы ограничений прямой задачи являются коэффициентами при соответствующих переменных целевой функции двойственной задачи, и наоборот;

6) если на переменную прямой задачи наложено условие неотрицательности, то соответствующее ограничение двойственной задачи записывается как ограничение-неравенство, если же нет, то как ограничение-равенство;

7) если какое-либо ограничение прямой задачи записано как равенство, то на соответствующую переменную двойственной задачи условие неотрицательности не налагается.

Транспонируем матрицу исходной задачи:

Приведем задачу к каноническому виду. Введем дополнительные переменные. В целевую функцию все дополнительные переменные введем с коэффициентом, равным нулю. Дополнительные переменные прибавим к левым частям ограничений, не имеющих предпочтительного вида, и получим равенства.

Решение двойственной задачи ЛП

Соответствие между переменными исходной и двойственной задачи:

На основании симплексной таблицы получено следующее решение двойственной задачи линейного программирования (выписываем из нижней строки):

Таким образом, наиболее дефицитным является ресурс первого вида. Его оценка максимальна и равна . Ресурс третьего вида является избыточным -его двойственная оценка равна нулю . Каждая дополнительно проданная единица товара 2-й группы будет снижать оптимальную прибыль на
Рассмотрен графический метод решения задачи линейного программирования (ЗЛП) с двумя переменными. На примере задачи приведено подробное описание построения чертежа и нахождения решения.

Решение транспортной задачи
Подробно рассмотрена транспортная задача, ее математическая модель и методы решения - нахождение опорного плана методом минимального элемента и поиск оптимального решения методом потенциалов.

Принятие решений в условиях неопределенности
Рассмотрено решение статистической матричной игры в условиях неопределенности с помощью критериев Вальда, Сэвиджа, Гурвица, Лапласа, Байеса. На примере задачи подробно показано построение платежной матрицы и матрицы рисков.

После того, как определен метод исследования и разработан инструмент, определяются параметры исследования: тип, состав и свойства выборки и её объем. Для определения типа выборки надо воспользоваться таблицами в лекциях: определить объем и свойства генеральной совокупности, затем выбрать модель выборки..

Таблица объемов выборок позволяет определить объем выборок, исходя из заранее заданного показателя надежности P и заранее заданной допустимой величины ошибки е. Р показывает, какую часть генеральной совокупности максимально сможет охватить выборка (это показывает её надежность), а ошибка показывает, какие минимальные расхождения будут допущены между свойствами генеральной совокупности и свойствами выборки.

Таблица объемов выборок
е P 0,10 0,09 0,03 0,07 0,06 0,05 0,04 0,03 0,02 0,01
0,75
0,80
0,85
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,965
0,970
0,975
0,980
0,985
0,990
0,991
0,992
0,993
0,994
0,995
0,996
0,997
0,998
0,999


Допустим, мы хотим охватить генеральную совокупность с надежностью не менее 80% и допускаем ошибку нашего исследования не менее 10%. При этом мы ничего не знаем о том, какие значения может принимать исследуемая нами переменная, то есть не имеем никакой априорной информации о генеральной совокупности: ни среднего не знаем, ни возможной дисперсии - ничего. Тогда мы просто ищем соответствующее пересечение в таблице (Р=0,80 , е=0,10): объем выборки составит 41 человек. Таблица составлена из расчета максимального значения дисперсии дихотомической переменной. Видно, что с увеличением точности выборки её объем быстро растет – если в описанном случае мы увидели объем в 41 человек, то для параметров в Р=95% и е=5% (стандартных для большинства исследований) объем составит уже 384 человека. Поэтому таблицей надо пользоваться в случаях, когда генеральная совокупность относительно небольшая и допустимы значительные величины ошибок.

Чтобы обеспечить небольшой объем выборки для относительно большой генеральной совокупности, надо заранее знать параметры распределения изучаемой переменной: среднее значение и дисперсию. При этом можно воспользоваться приведенной ниже номограммой для расчета выборок (номограмма построена для надежности Р=95%, что вполне достаточно). Для использования номограммы надо знать две величины: коэффициент изменчивости v и допустимую величину ошибки е . Коэффициент изменчивости определяется как коэффициент вариации

то есть для его определения надо знать среднее арифметическое и среднее квадратичное отклонение исследуемой переменной.

Для упрощения расчета коэффициента изменчивости надо знать размах вариации, то есть максимальное и минимальное значение, которых может достигать исследуемая переменная. В этом случае расчет v ведется так:

,где X max , X min – максимальное и минимальное значения исследуемой переменной, А - постоянное действительное положительное число (обычно выбирается между 5 и 6).


Пример 1 . Предположим, нам известно, что коэффициент изменчивости исследуемой переменной равен 6%. Найдем объем выборки при допустимой ошибке в 5%. Для этого на левой шкале номограммы, обозначенной v% , ищем точку 6. На правой шкале номограммы, обозначенной ε% , ищем выбранное значение ошибки, составляющее 5%. Отмечаем эти точки на линиях и соединяем их по линейке прямой линией. Смотрим, где эта прямая пересекает центральную шкалу, обозначенную n 1 . Это пересечение совершается в точке 6. Следовательно, объем выборки составит 6 человек.

Пример 2 . Пусть нам известно, что коэффициент изменчивости исследуемой переменной равен 16%. Найдем объем выборки для заданной ошибки в 5%. 16% больше 10%, максимально отмеченных на шкале v% , а шкалы логарифмические, поэтому 16 делим на 10 и на шкале v% номограммы ищем точку 1,6. На правой шкале номограммы ε% ищем выбранное значение ошибки, составляющее 5%. Отмечаем эти точки на шкалах и соединяем их по линейке прямой линией. Смотрим, где прямая пересекает центральную шкалу n 1 . Пересечение совершается в точке 0,4. Поскольку мы уменьшили 16% до 1,6%, то есть в 10 раз, то умножаем 0,4 на 100. Объем выборки составит 40 человек (сравните с указанной выше выборкой в 384 человека для Р=95% и е=5% без учета конкретного значения дисперсии).

Пример 3 . Исследуется потребление студентами сигарет, причем изучаются только те, кто курит сигареты (генеральная совокупность - курящие). Допустимая ошибка составляет 5%. Заранее известно (например, данные взяты из источников вторичной маркетинговой информации), что студенты выкуривают сигареты в количестве от одной пачки сигарет в три дня до двух пачек в день, причем в среднем курящему студенту хватает одной пачки сигарет на день. Тогда соответствующие значения будут составлять X max =2, X min =0,33, а среднее составит 1. Коэффициент изменчивости v составит

и на левой шкале мы откладываем 2,8%, на правой 5%, соединим их и по центральной шкале номограммы получим отметку 1,2 - это значит, что объем выборки должен быть 120 человек.

Пример 4 . Предположим, что при использовании предыдущего примера доступ к целевой репрезентативной группе (курящим) отсутствует. Это значит, что надо включать в выборку как курящих, так и некурящих. В таком случае параметры для расчета будут X max =2, X min =0. Какова будет средняя? Расчет средней по выражению (2+0)/2=1 не является правильным, поскольку прежняя средняя рассчитывалась только для курящих, а сейчас не учтено соотношение размеров групп курящих и некурящих. Например, если доля некурящих составляет 60%, а доля курящих - 40%, то тогда средняя составит 0,4.

Сравним возможные размеры выборок и ошибки исследования:

Если отсутствуют данные о соотношении репрезентативной и нерепрезентативной групп в генеральной совокупности, то расчет коэффициента изменчивости осуществляется через изменение величины А . Как правило, если средняя рассчитывается по выражению (X max +X min )/2, то А уменьшается до 5 и менее.

Как видим, простая случайная выборка для достижения требуемой точности требует значительных объемов. Общий объем выборки можно существенно уменьшить двумя способами:

1) выполняя районирование или стратификацию, то есть выделяя качественно различные группы в генеральной совокупности и размещая выборку именно среди представителей этих групп;

2) выполняя выделение гнезд, то есть разделяя генеральную совокупность на большое количество одинаковых частей и распределяя выборку между этими частями.

При проведении стратифицированной выборки можно поступать следующим образом (см. схему далее).

Первоначально определяется, какой объем априорной информации известен о генеральной совокупности. Для правильно выполненной стратифицированной выборки минимального объема необходимо знать общую численность генеральной совокупности N , число изучаемых страт i , численность каждой страты N i , а внутри каждой страты соответствующее среднее значение изучаемой переменной и её дисперсию. Если все эти параметры известны, то с помощью рассмотренной выше номограммы можно рассчитать объем стратифицированной пропорциональной выборки.

Для этого определяют сначала генеральную дисперсию изучаемой переменной как сумму внутригрупповой и межгрупповой дисперсий, потом определяют генеральное среднее по средним страт, потом определяют коэффициент изменчивости и по номограмме определяют при задании допустимой ошибки общую величину выборки. σ

Генеральная дисперсия равна

где σ 2 р - внутригрупповая дисперсия, а σ 2 m - межгрупповая дисперсия.

Внутригрупповую дисперсию определяют по известным дисперсиям изучаемой переменной внутри каждой страты

где N i - численность i -той страты, σ 2 i - дисперсия i -той страты.

Межгрупповую дисперсию определяют, исходя из известных средних по каждой страте и рассчитанной на их основе генеральной средней:

Если известно число страт, но неизвестен их объем (и/или объем генеральной совокупности), то рассчитывается сначала общий объем выборки указанным способом, а потом он делится на число страт так, чтобы в каждой страте разместилась бы одинаковая доля выборки - это будет стратифицированная равная выборка.

Если неизвестны дисперсии внутри страт, то необходимо знать размах вариации внутри каждой страты, то есть значения X max и X min . Тогда дисперсии страт можно рассчитать, исходя из выражения

Если неизвестна численность страт, то внутригрупповвая дисперсия рассчитывается как простое среднее арифметическое из дисперсий страт.

Если неизвестны средние в каждой страте, но известен размах вариации, то средние внутри страт определяются как средние между крайними значениями изучаемой переменной

Если наличие страт неизвестно, но по генеральной совокупности известны параметры среднего, дисперсии и плотности распределения единиц наблюдения, то осуществляется районная выборка по гнездовому или пропорциональному способам. Если единицы наблюдения размещены по территории, где находится генеральная совокупность, относительно равномерно (коэффициент вариации плотности размещения составляет не более 15-25%), то используется выделение гнезд, каждое из которых вмещает в себя одинаковое число единиц наблюдения. Гнезда выделяются так, что имеют одинаковый размер (например, площадь). Число гнезд определяется пропорционально отношению общего размера выборки n к общему числу единиц наблюдения N . Из каждого гнезда отбирается только одна единица наблюдения, размещение выборки по гнездам осуществляется равномерно-механическим или случайным методом.

Если размещение единиц наблюдения по изучаемой территории неравномерно, то она разделяется на районы с одинаковым числом единиц наблюдения в каждом - это порайонная пропорциональная выборка. Для этого рассчитывается общий объем выборки по номограмме, после чего эта выборка распределяется по районам пропорционально численности единиц наблюдения. Внутри районов в этом случае размещение выборки выполняется либо гнездовым, либо иным способом, аналогично известным процедурам размещения выборок.

Пример 5 . Воспользуемся примером 3, изучающим потребление сигарет. Если нет никаких данных о возможных параметрах изучаемой переменной, то при данных Р=95% , е=5% объем выборки составит 384 человека. Выделим две страты - мужчин и женщин. Пусть априори известно (например, из проведения пилотного исследования), что потребление сигарет в пачках за день составляет у мужчин X max =2, X min =0,33, у женщин X max =3, X min =0,1. Вычислим объем выборки в этом случае

Поскольку о соотношении численностей страт нам ничего не известно, то принимаем, что их численности равны и доли их численностей в генеральной совокупности составляют по 0,5. Тогда внутригрупповая дисперсия будет

а межгрупповая

при генеральном среднем

Тогда генеральная дисперсия будет

и коэффициент изменчивости составит

По номограмме при допустимой ошибке 5% объем выборки составит приблизительно 240 человек (более чем на 140 меньше, чем по таблице). В данном случае эта выборка должна быть разделена на 120 мужчин и 120 женщин.

Если и этот объем выборки слишком велик, то нужно увеличивать количество страт, добиваясь того, чтобы размах вариации в каждой страте был минимален, а размеры страт близки, то есть стремиться к минимуму суммарной дисперсии.

В случае, когда известен размер генеральной совокупности в целом, то возможно корректировать размер выборки на бесповторность следующим образом:

1) для известных v% и e рассчитывается по номограмме размер выборки n 1 ;

2) заданная допустимая ошибка корректируется с учетом размера генеральной совокупности

3) по номограмме для скорректированной ошибки e correct и v% находится новый объем выборки n 2 .

Пример 6. Предположим, что исследование проводится для целевого сегмента объемом 1600 единиц наблюдения при v% =25% и e =5%. По номограмме объем выборки тогда составит 100 единиц наблюдения. Корректируем ошибку с учетом размера выборки

По номограмме скорректированный объем выборки составит (при v% =25% и e =5,2%) 90 единиц наблюдения.

ГЛАВА 1.

В этой части работы студент обрабатывает собранные им данные и делает вывод относительно поставленной задачи: как решить поставленную проблему.

Для обработки студент может использовать MS Excel, SPSS, Statistika for Windows, MatLab, MatCad и другие программы обработки больших массивов данных. Основные задачи, решаемые при использовании этих средств:

верификация данных:

установление законов распределения;

установление взаимосвязей между данными;

классификация и сегментация данных;

прогнозирование развития событий.

Последовательность обработки данных исследования

  1. расчет в рамках анализа двумерных распределений по каждой таблице данных, коэффициента вариации, корреляционного отношения и стандартных отклонений4
  2. расчет корреляционной и ковариационной матриц;
  3. выбор массива данных по заранее заданным условиям;
  4. вычисление распределений (при учете заданных условий);
  5. перекодировка (исправление ошибок в данных);
  6. введение новых показателей (расчет индексов).

Ниже в таблице описаны возможные методы анализа данных. Не следует, разумеется, применять их сразу все. Студент выбирает именно те 1-2 метода, которые наиболее подходят для раскрытия поставленной проблемы.

Количественные методы анализа данных маркетинговых исследований
1.Методы сжатия описательной статистики 2.Методы анализа систем показателей
1.1 Группирование 1.2 Оценка параметров распределения 1.3 Ковариационная и корреляционная матрица
2.1 Ориентация на интегральную качественную характеристику 2.2 Ориентация на количественный признак
2.2.1 Дисперсионный анализ 2.2.2 Корреляционно-регрессионный анализ 2.2.3 Причинный анализ
2.1.1 Без априорной информации об исследуемом признаке 2.1.2 С априорной информацией о классах признака 2.1.3 С априорной информацией о возрастании (убывании) признака)
2.1.1.1 Методы экспертных оценок 2.1.1.2 Анализ матрицы данных.
2.1.3.1 Усиление шкалы по результирующему признаку 2.1.3.2 Оценка существенности показателя (ранговые корреляции)
2.1.1.2.1Факторный анализ 2.1.1.2.2Латентно-структурный анализ 2.1.1.2.3Кластерный анализ 2.1.1.2.4 Методы оценки значимости показателя
2.1.2.1 Методы усиления номинальной шкалы по результирующему признаку 2.1.2.2 Оценка существенности показателей системы
2.1.2.2.1 Методы теории распознавания образов 2.1.2.2.2 Методы теории информации 2.1.2.2.3 Методы теории графов

Для определения основных характеристик в зависимости от применявшихся вопросов могут быть применены слудующие методы анализа измерений по шкалам в вопросах:

Статистические методы выявления связей

Шкала результирующего (итогового) признака Шкала факторного признака (предиктора) Метод статистической обработки
Количественные (И,О,А,Р) Количественные (И,О,А,Р) Регрессии Корреляции
Количественные (И,О,А,Р) Время (И) Динамика временных рядов
Количественные (И,О,А,Р) Неколичественные (К,П) Дисперсионный анализ
Количественные (И,О,А,Р) Ковариационный анализ Типологическая регрессия
Неколичественные (К) Количественные (И,О,А,Р) Дискриминантный анализ Кластерный анализ Таксономия Расщепление смесей
Неколичественные (П) Неколичественные (К,П) Ранговые корреляции Анализ таблиц сопряженности
Количественные и неколичественные Количественные и неколичественные Логические решающие функции
Типы шкал в вопросах: И - интервальная, О - относительная, А- абсолютная, Р - разностная, П - порядковая, К - классификационная (номинальная)

Например, корреляционный анализ для сегментации потребителей выполняется так:

  1. выделяются средние значения, стандартные отклонения, коэффициент вариации, ошибку среднего значения и доверительный интервал;
  2. рассчитывается ковариационная и корреляционная матрица (например, в MS Excel);
  3. вычисляется «близость» объектов в пространстве характеристик (для сегментации);
  4. вычисляются пути максимальной корреляции в целях группировки переменных;
  5. вычисляются пути максимального расстояния по матрице расстояний в целях классификации объектов;
  6. определяются наиболее близкие группы, которые и будут сегментами потребителей;
  7. проверяется мера близости групп (например, корреляционное отношение).

В конце этой главы студент описывает результаты анализа данных, так чтобы были ясны его решения поставленных задач работы, окончатеьные выводы и их формулировки.

Заключение

В этом разделе студент формулирует полное решение проблемы, поставленной в начале своей работы.

Список литературы

Список использованных источников (список литературы) надлежит выполнять в конце текста работы сообразно ГОСТ 7.1-84, например:

Зиннуров У. Г. Основы маркетинговых исследований: Учебное пособие / У. Г. Зиннуров; Уфимск. гос. авиац. техн. ун-т. Уфа, 1996.- 110 с.

Источники в списке располагаются в алфавитном порядке. На все перечисленные источники в работе необходимо сделать ссылки. Постраничные сноски не допускаются.

В случае, если источником являются сайты Интернета, необходимо указывать полностью адрес того сайта (копируя его адресную строку), на котором была получена конкретная информация. При этом приводится дата последнего обращения к этому сайту, например.

Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак - это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качестванная характеристика какого-либо свойства единиц или совокупности в цельм в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 9.1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 9.1 Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 9.2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 9.2 Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 9.3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 9.3 Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 9.4 Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 9.5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 9.5 Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.

Когда Вы задаете вопрос «Сколько мне потребуется респондентов для опроса?», Вы на самом деле спрашиваете: «Насколько большой должна быть моя выборка, чтобы точно оценить мою совокупность?» Принимая во внимание сложность этих понятий, мы разбили процесс на 5 шагов, давая Вам возможность легко рассчитать идеальный объем выборки и обеспечить точность результатов опроса.

5 шагов, с помощью которых Вы убедитесь, что Ваша выборка точно оценивает генеральную совокупность:

Шаг 1

Что представляет собой Ваша генеральная совокупность?

Под термином «генеральная совокупность» мы понимаем целую группу людей, мнение которой Вы собираетесь выяснить (выборка будет состоять из членов этой совокупности, которые фактически примут участие в опросе).

К примеру, если Вы хотите понять, как найти рынок сбыта для зубной пасты во Франции, Вашей совокупностью будут жители Франции. А если Вы пытаетесь определить, сколько дней отпуска предпочли бы иметь люди, работающие на компанию по производству зубной пасты, то Ваша генеральная совокупность - сотрудники этой компании.

Независимо от того, страна это или компания, установление генеральной совокупности - это важный первый шаг. После того как Вы определились с генеральной совокупностью, установите (приблизительно) ее численность. Например, во Франции живут около 65 миллионов человек, а в компании-производителе зубной пасты работает, скорее всего, гораздо меньше сотрудников.

Получили нужную цифру? Хорошо, тогда идем дальше…

Шаг 2

Какова требуемая точность?

Этот шаг является своего рода оценкой того, на какой риск Вы готовы пойти в отношении возможной неточности ответов на опрос в связи тем фактом, что Вы не опрашиваете всю генеральную совокупность. Поэтому Вам следует ответить на два вопроса:

  1. Насколько уверенными Вы должны быть в том, что полученные ответы отображают мнения генеральной совокупности?
    Это Ваш предел погрешности. Итак, допустим, 90% членов выборки любят жевательную резинку со вкусом винограда. Предел погрешности в 5% добавляет по 5% с каждой стороны этого числа, что означает, что фактически 85-95% участников выборки любят жевательную резинку со вкусом винограда. 5% - наиболее часто используемый предел погрешности, но Вы можете устанавливать его значение от 1% до 10% в зависимости от опроса. Не рекомендуется поднимать этот показатель выше 10%.
  2. Насколько уверенными Вы должны быть в том, что выборка в точности представляет генеральную совокупность?

    Это Ваш уровень доверия. Уровень доверия - это вероятность того, что выборка является значимой для полученных результатов. Расчет, как правило, производится следующим образом. Если бы Вы в случайном порядке определили еще 30 выборок из данной совокупности, то как часто полученный Вами результат для одной выборки существенно отличался бы от результатов для других 30 выборок? Уровень доверия в 95% означает, что в 95% случаев результаты совпадали бы. 95% - наиболее часто используемое значение, но Вы можете установить его на уровне 90% или 99% в зависимости от опроса. Опускать значение уровня доверия ниже 90% не рекомендуется.

Шаг 3

Какого размера выборка мне нужна?

В таблице, размещенной ниже, выберите приблизительный размер целевой совокупности и предел погрешности для определения количества требуемых завершенных опросов.

Теперь, когда у Вас есть значения шага 1 и шага 2, по удобной таблице ниже определите размер требуемой выборки…

Генеральная совокупность Предел погрешности Уровень доверия
10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88
500 81 218 476 176 218 286
1000 88 278 906 215 278 400
10 000 96 370 4900 264 370 623
100 000 96 383 8763 270 383 660
1 000 000+ 97 384 9513 271 384 664

Примечание . Данные приведены только в качестве ориентировочных инструкций. Кроме того, для генеральной совокупности свыше 1 млн. цифры можно округлять до сотен.

Шаг 4

Насколько отзывчивыми окажутся люди?

К сожалению, не все, кому Вы отправите опрос, дадут на него ответ.

Процент людей, заполнивших бланк полученного опроса, называют «процентной долей ответивших». Определение процентной доли ответивших на Ваш опрос поможет установить общее число экземпляров опроса, которое необходимо разослать для получения требуемого числа ответов.

Процентная доля ответивших прямым образом зависит от ряда факторов, таких как отношения с целевой аудиторией, продолжительность и сложность опроса, предлагаемые поощрения и тема опроса. Для онлайн-опросов, в которых с получателями предварительно не были установлены отношения, процентная доля ответивших в 20-30% считается очень высокой. Более консервативным и вероятным является значение 10-14%, если Вы до этого не проводили опрос в данной совокупности.

Шаг 5

Так скольким же людям отсылать опрос?

Это легкий этап!

Просто разделите число, полученное на шаге 3, на число, полученное на шаге 4. Это и есть Ваше волшебное число.

К примеру, если Вам нужно, чтобы опрос заполнили 100 женщин, пользующихся шампунем, и Вы считаете, что 10% женщин, которым Вы отправили опрос, его заполнят, требуется отослать опрос 1000 женщин (100/10%)!