Расчет выборочной совокупности. Насколько отзывчивыми окажутся люди? Генеральная совокупность и выборка из нее

  • БЛОК 2. СТАТИСТИКА ЗДОРОВЬЯ НАСЕЛЕНИЯ. МОДУЛЬ 2.1. МЕТОДИКА РАСЧЕТА И АНАЛИЗА МЕДИКО-ДЕМОГРАФИЧЕСКИХ ПОКАЗАТЕЛЕЙ
  • МОДУЛЬ 2.2. МЕТОДИКА РАСЧЕТА И АНАЛИЗА ПОКАЗАТЕЛЕЙ ЗАБОЛЕВАЕМОСТИ
  • МОДУЛЬ 2.3. МЕТОДИКА РАСЧЕТА И АНАЛИЗА ПОКАЗАТЕЛЕЙ ИНВАЛИДНОСТИ
  • МОДУЛЬ 2.4. МЕТОДИКА РАСЧЕТА И АНАЛИЗА ПОКАЗАТЕЛЕЙ ФИЗИЧЕСКОГО ЗДОРОВЬЯ НАСЕЛЕНИЯ
  • БЛОК 3. СТАТИСТИКА МЕДИЦИНСКОЙ И ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ УЧРЕЖДЕНИЙ ЗДРАВООХРАНЕНИЯ. МОДУЛЬ 3.1. МЕТОДИКА РАСЧЕТА И АНАЛИЗА СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ ДЕЯТЕЛЬНОСТИ АМБУЛАТОРНО-ПОЛИКЛИНИЧЕСКИХ УЧРЕЖДЕНИЙ
  • МОДУЛЬ 3.2. МЕТОДИКА РАСЧЕТА И АНАЛИЗА СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ ДЕЯТЕЛЬНОСТИ БОЛЬНИЧНЫХ УЧРЕЖДЕНИЙ
  • МОДУЛЬ 3.3. МЕТОДИКА РАСЧЕТА И АНАЛИЗА СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ ДЕЯТЕЛЬНОСТИ СТОМАТОЛОГИЧЕСКИХ ОРГАНИЗАЦИЙ
  • МОДУЛЬ 3.4. МЕТОДИКА РАСЧЕТА И АНАЛИЗА СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ ДЕЯТЕЛЬНОСТИ МЕДИЦИНСКИХ УЧРЕЖДЕНИЙ, ОКАЗЫВАЮЩИХ СПЕЦИАЛИЗИРОВАННУЮ ПОМОЩЬ
  • МОДУЛЬ 3.5. МЕТОДИКА РАСЧЕТА И АНАЛИЗА ПОКАЗАТЕЛЕЙ ДЕЯТЕЛЬНОСТИ СЛУЖБЫ СКОРОЙ МЕДИЦИНСКОЙ ПОМОЩИ
  • МОДУЛЬ 3.6. МЕТОДИКА РАСЧЕТА И АНАЛИЗА ПОКАЗАТЕЛЕЙ ДЕЯТЕЛЬНОСТИ БЮРО СУДЕБНО-МЕДИЦИНСКОЙ ЭКСПЕРТИЗЫ
  • МОДУЛЬ 3.7. МЕТОДИКА РАСЧЕТА И АНАЛИЗА ПОКАЗАТЕЛЕЙ ВЫПОЛНЕНИЯ ТЕРРИТОРИАЛЬНОЙ ПРОГРАММЫ ГОСУДАРСТВЕННЫХ ГАРАНТИЙ ОКАЗАНИЯ ГРАЖДАНАМ РОССИЙСКОЙ ФЕДЕРАЦИИ БЕСПЛАТНОЙ МЕДИЦИНСКОЙ ПОМОЩИ
  • МОДУЛЬ 3.9. МЕТОДИКА РАСЧЕТА И АНАЛИЗА ПОКАЗАТЕЛЕЙ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ УЧРЕЖДЕНИЙ ЗДРАВООХРАНЕНИЯ
  • МОДУЛЬ 1.4. РАСЧЕТ ОПТИМАЛЬНОЙ ЧИСЛЕННОСТИ ВЫБОРКИ

    МОДУЛЬ 1.4. РАСЧЕТ ОПТИМАЛЬНОЙ ЧИСЛЕННОСТИ ВЫБОРКИ

    Цель изучения модуля: показать способы расчета оптимальной численности выборки при изучении общественного здоровья,

    деятельности системы (учреждений) здравоохранения и в клинической практике.

    После изучения темы студент должен знать:

    Преимущества использования выборочного метода;

    Способы формирования выборочной совокупности;

    Методы расчета оптимальной численности выборки. Студент должен уметь:

    Выбрать способ формирования выборочной совокупности в соответствии с задачами медико-социального исследования;

    1.4.1. Блок информации

    Статистическое наблюдение можно организовать как сплошное и несплошное. Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности, несплошное - лишь ее часть. К несплошному наблюдению относится выборочное наблюдение. Цель выборочного наблюдения состоит в том, чтобы по характеристикам выборочной совокупности судить о характеристиках генеральной совокупности.

    При проведении медико-социальных исследований используют следующие способы формирования выборочной совокупности:

    Механический отбор;

    Типологический (стратифицированный) отбор;

    Серийный отбор;

    Многоступенчатый (скрининговый) отбор;

    Когортный метод;

    Метод отбора копи-пар.

    Формирование выборочной совокупности (выборки) позволяет получить такую совокупность единиц наблюдения, которая по интересующим исследователя признакам дает представление о генеральной совокупности. Для этого выборка должна быть репрезентативной (представительной).

    Репрезентативность выборки - соответствие характеристик, получаемых в результате выборочного наблюдения, аналогичным показателем генеральной совокупности.

    При проведении выборочного исследования нельзя получить абсолютно точные данные, как при сплошном наблюдении.

    Обусловлено это тем, что наблюдению подвергается не вся совокупность, а только ее часть. Поэтому при проведении выборочного исследования неизбежна некоторая погрешность (ошибки). Ошибки, свойственные выборочному исследованию, называются ошибками выборки.

    Ошибка выборки - расхождение между характеристиками выборочной и генеральной совокупностей. Как правило, она возникает в результате нарушения методологических принципов отбора единиц наблюдения при формировании выборочной совокупности и вызвана объективным различием целого (генеральной совокупности) и его части (выборки).

    Наибольшая из возможных ошибок выборки Δ называется предельной ошибкой выборки, которая рассчитывается по формуле:

    где S 2 - оценка дисперсии σ 2 , вычисляемая по выборке х 1 х 2 , х n .

    Средней ошибкой выборки (μ) называют различие между средними выборочной и генеральной совокупностями, которая по модулю не превышает σ.

    Тогда коэффициент доверия t характеризует ее кратность. В случае когда генеральная совокупность имеет конечный объем N, в среднюю ошибку выборки μ вводят поправочный коэффициент

    На формулах расчета предельной ошибки выборки основан способ определения численности выборки, обеспечивающей заданную точность оценки. Из формулы для предельной ошибки:

    следует:

    В случае генеральной совокупности конечного объема N аналогично можно найти:

    следовательно,

    Доверительный коэффициент t находится из таблицы квантилей нормального распределения при заданной надежности γ. При стандартных значениях надежности γ = 0,95 и γ = 0,99 соответствующие доверительные коэффициенты t равны t 0,95 = 1,96; t 0,99 = 2,58. Приведем еще два часто используемых значения: t 0,9544 = 2; t 0,9973 = 3. Если вместо σ в формуле фигурирует S, оказывается, что t зависит не только от γ, но и от n. В этом случае коэффициент t находят из таблицы квантилей распределения Стьюдента. При достаточно больших n следует, что S σ и соответствующие коэффициенты t при одинаковой надежности малоразличимы.

    При оценке вероятности р по относительной частоте ω из формулы:

    следует:

    Аналогично для генеральной совокупности конечного объема N получаем:

    следовательно,

    Таким образом, задав желаемую точность, т.е. указав предельную ошибку Δ, достаточный объем выборки n, обеспечивающий эту точность, можно найти по приведенным формулам. При n, больших найденного значения, точность увеличивается, поскольку предельная ошибка Δ уменьшается (см. формулы, связывающие n и Δ).

    1.4.2. Задания для самостоятельной работы

    1.Изучить материалы соответствующей главы учебника , модуля, рекомендуемой литературы.

    2.Ответить на контрольные вопросы.

    3.Разобрать задачу-эталон.

    4.Ответить на вопросы тестового задания модуля.

    5.Решить задачи.

    1.4.3. Контрольные вопросы

    1.В чем преимущество выборочного метода исследования?

    2.Дайте определение репрезентативности выборки.

    3.Дайте определение ошибки выборки.

    4.Назовите способы формирования выборочной совокупности.

    5.Дайте определение предельной ошибки выборки. Приведите формулы расчета.

    6.Дайте определение средней ошибки выборки. Приведите формулы расчета.

    1.4.4. Задача-эталон

    Исходные данные

    1. При изучении средней длительности пребывания больных в стационаре получены следующие данные: М = 20 дней, σ = 1,63 дня, μ = 0,16 дня.

    2. При изучении одногодичной летальности в онкологическом диспансере получен показатель 67,9%.

    Задание

    1)для получения достоверных результатов при изучении средней длительности пребывания больных в стационаре при заданном доверительном коэффициенте t Y = 3 (надежность γ = 0,9973) и предельной ошибке Δ = 0,5 дня;

    2)для получения достоверных результатов при изучении одногодичной летальности в онкологическом диспансере при заданном доверительном коэффициенте t Y = 2 (надежность γ = 0,9544) и предельной ошибке Δ = 0,05.

    Решение

    1. Расчет необходимого объема выборки для изучения средней длительности пребывания больных в стационаре:

    2. Расчет необходимого объема выборки для изучения одногодичной летальности в онкологическом диспансере:

    Вывод

    1.Для получения показателя средней длительности пребывания больных в стационаре с заданной точностью 0,5 дня необходимый объем выборки должен составить 96 больных.

    2.Для получения показателя одногодичной летальности с гарантированной точностью Δ = 0,05 необходимый объем выборки должен составить 352 больных.

    1.4.5. Тестовые задания

    Выберите только один правильный ответ. 1. Какая совокупность называется генеральной?

    1)достоверные данные, необходимые для исследования;

    2)отдельные единицы совокупности, отличающиеся друг от друга в силу различных случайных причин;

    3)неограниченное число единиц наблюдения;

    4)множество статистических элементов;

    5)множество качественно однородных единиц наблюдения, объединенных по одному или группе признаков.

    2. Часть единиц наблюдения генеральной совокупности, которая подвергается выборочному исследованию, называют:

    1)частичной совокупностью;

    2)случайной совокупностью;

    3)выборочной совокупностью;

    4)общей совокупностью;

    5)фрагментарной совокупностью.

    3. Назовите важнейшее условие объединения единиц наблюдения в выборочную совокупность:

    1)репрезентативность;

    2)однородность;

    3)разнообразие;

    4)конгруэнтность;

    5)случайность.

    4. Какие ошибки возникают вследствие того, что выборочная совокупность не воспроизводит в точности характеристики генеральной совокупности?

    1)ошибки выборки;

    2)ошибки регистрации;

    3)непреднамеренные ошибки;

    4)логические ошибки;

    5)систематические ошибки.

    5. Возможное расхождение характеристик выборочной и генеральной совокупностей измеряют:

    1)средним квадратическим отклонением;

    2)дисперсией;

    3)ошибкой выборки;

    4)корреляцией;

    5)ошибкой регистрации.

    6. Чем обеспечивается репрезентативность выборки?

    1)случайным отбором;

    2)ошибкой выборки;

    3)предельной ошибкой;

    4)средним квадратическим отклонением;

    5)случайной ошибкой.

    7. Что такое серийный отбор?

    1)отбор копи-пар единиц наблюдения;

    2)отбор единиц наблюдений с помощью генератора случайных чисел;

    3)отбор целых групп единиц наблюдения;

    4)многоступенчатый отбор единиц наблюдения;

    5)типологический отбор единиц наблюдения.

    8. Укажите формулу для вычисления предельной ошибки выборки:

    9. В каких случаях используется когортный метод?

    1)для изучения заболеваемости населения;

    2)анализа причинно-следственных связей заболеваемости и факторов риска;

    3)разработки целевых медико-социальных программ;

    4)изучения статистической совокупности относительно однородных групп лиц, объединенных наступлением определенного демографического события;

    5)анализа социальной эффективности деятельности системы здравоохранения.

    10. Необходимый объем выборки, обеспечивающий заданную точность, определяется по формуле:

    1.4.6. Задачи для самостоятельного решения

    Задача 1

    Исходные данные

    1.При предварительном изучении среднего роста школьников получены следующие данные: М = 132 см, σ = 3,18 см, μ = 0,13 см.

    2.При предварительном изучении заболеваемости городского населения получен показатель 980 0 / 00 .

    Задание

    Определить необходимый объем выборки:

    1)для получения достоверных результатов при изучении среднего роста школьников при коэффициенте доверия t = 3 и предельной ошибке Δ = 0,5 см;

    2)для получения достоверных результатов при углубленном изучении заболеваемости городского населения при коэффициенте доверия t

    Задача 2

    Исходные данные

    1.При предварительном изучении средней частоты сердечных сокращений (ЧСС) у подростков после физической нагрузки получены следующие данные: М=110в минуту, σ = 10,0 в минуту, μ = 4,0 в минуту.

    2.При изучении частоты встречаемости лиц, имеющих избыточную массу тела, получен показатель 528,4 0 / 00 .

    Задание

    Определить необходимый объем выборки:

    1)для получения достоверных результатов при изучении средней ЧСС у подростков после физической нагрузки при коэффициенте доверия t = 3 и предельной ошибке Δ = 0,5 в минуту;

    2)для получения достоверных результатов при изучении частоты встречаемости лиц, имеющих избыточную массу тела, при коэффициенте доверия t = 2 и предельной ошибке Δ = 2.

    Задача 3

    Исходные данные

    1. При предварительном изучении средней длительности временной нетрудоспособности больных, проходивших амбулаторное лечение по поводу болезней органов дыхания, были получены следующие данные: М = 12 дней, σ = 2,15 дня, μ = 0,2 дня.

    2. При предварительном изучении частота нарушения зрения лиц, длительно работающих за компьютером, отмечена значением

    257, 0 / 00 . Задание

    Определить необходимый объем выборки:

    1)для получения достоверных результатов при изучении средней длительности временной нетрудоспособности больных, проходивших амбулаторное лечение по поводу болезней органов дыхания, при коэффициенте доверия t = 3 и предельной ошибке Δ = 0,5 дня;

    После того, как определен метод исследования и разработан инструмент, определяются параметры исследования: тип, состав и свойства выборки и её объем. Для определения типа выборки надо воспользоваться таблицами в лекциях: определить объем и свойства генеральной совокупности, затем выбрать модель выборки..

    Таблица объемов выборок позволяет определить объем выборок, исходя из заранее заданного показателя надежности P и заранее заданной допустимой величины ошибки е. Р показывает, какую часть генеральной совокупности максимально сможет охватить выборка (это показывает её надежность), а ошибка показывает, какие минимальные расхождения будут допущены между свойствами генеральной совокупности и свойствами выборки.

    Таблица объемов выборок
    е P 0,10 0,09 0,03 0,07 0,06 0,05 0,04 0,03 0,02 0,01
    0,75
    0,80
    0,85
    0,90
    0,91
    0,92
    0,93
    0,94
    0,95
    0,96
    0,965
    0,970
    0,975
    0,980
    0,985
    0,990
    0,991
    0,992
    0,993
    0,994
    0,995
    0,996
    0,997
    0,998
    0,999


    Допустим, мы хотим охватить генеральную совокупность с надежностью не менее 80% и допускаем ошибку нашего исследования не менее 10%. При этом мы ничего не знаем о том, какие значения может принимать исследуемая нами переменная, то есть не имеем никакой априорной информации о генеральной совокупности: ни среднего не знаем, ни возможной дисперсии - ничего. Тогда мы просто ищем соответствующее пересечение в таблице (Р=0,80 , е=0,10): объем выборки составит 41 человек. Таблица составлена из расчета максимального значения дисперсии дихотомической переменной. Видно, что с увеличением точности выборки её объем быстро растет – если в описанном случае мы увидели объем в 41 человек, то для параметров в Р=95% и е=5% (стандартных для большинства исследований) объем составит уже 384 человека. Поэтому таблицей надо пользоваться в случаях, когда генеральная совокупность относительно небольшая и допустимы значительные величины ошибок.

    Чтобы обеспечить небольшой объем выборки для относительно большой генеральной совокупности, надо заранее знать параметры распределения изучаемой переменной: среднее значение и дисперсию. При этом можно воспользоваться приведенной ниже номограммой для расчета выборок (номограмма построена для надежности Р=95%, что вполне достаточно). Для использования номограммы надо знать две величины: коэффициент изменчивости v и допустимую величину ошибки е . Коэффициент изменчивости определяется как коэффициент вариации

    то есть для его определения надо знать среднее арифметическое и среднее квадратичное отклонение исследуемой переменной.

    Для упрощения расчета коэффициента изменчивости надо знать размах вариации, то есть максимальное и минимальное значение, которых может достигать исследуемая переменная. В этом случае расчет v ведется так:

    ,где X max , X min – максимальное и минимальное значения исследуемой переменной, А - постоянное действительное положительное число (обычно выбирается между 5 и 6).


    Пример 1 . Предположим, нам известно, что коэффициент изменчивости исследуемой переменной равен 6%. Найдем объем выборки при допустимой ошибке в 5%. Для этого на левой шкале номограммы, обозначенной v% , ищем точку 6. На правой шкале номограммы, обозначенной ε% , ищем выбранное значение ошибки, составляющее 5%. Отмечаем эти точки на линиях и соединяем их по линейке прямой линией. Смотрим, где эта прямая пересекает центральную шкалу, обозначенную n 1 . Это пересечение совершается в точке 6. Следовательно, объем выборки составит 6 человек.

    Пример 2 . Пусть нам известно, что коэффициент изменчивости исследуемой переменной равен 16%. Найдем объем выборки для заданной ошибки в 5%. 16% больше 10%, максимально отмеченных на шкале v% , а шкалы логарифмические, поэтому 16 делим на 10 и на шкале v% номограммы ищем точку 1,6. На правой шкале номограммы ε% ищем выбранное значение ошибки, составляющее 5%. Отмечаем эти точки на шкалах и соединяем их по линейке прямой линией. Смотрим, где прямая пересекает центральную шкалу n 1 . Пересечение совершается в точке 0,4. Поскольку мы уменьшили 16% до 1,6%, то есть в 10 раз, то умножаем 0,4 на 100. Объем выборки составит 40 человек (сравните с указанной выше выборкой в 384 человека для Р=95% и е=5% без учета конкретного значения дисперсии).

    Пример 3 . Исследуется потребление студентами сигарет, причем изучаются только те, кто курит сигареты (генеральная совокупность - курящие). Допустимая ошибка составляет 5%. Заранее известно (например, данные взяты из источников вторичной маркетинговой информации), что студенты выкуривают сигареты в количестве от одной пачки сигарет в три дня до двух пачек в день, причем в среднем курящему студенту хватает одной пачки сигарет на день. Тогда соответствующие значения будут составлять X max =2, X min =0,33, а среднее составит 1. Коэффициент изменчивости v составит

    и на левой шкале мы откладываем 2,8%, на правой 5%, соединим их и по центральной шкале номограммы получим отметку 1,2 - это значит, что объем выборки должен быть 120 человек.

    Пример 4 . Предположим, что при использовании предыдущего примера доступ к целевой репрезентативной группе (курящим) отсутствует. Это значит, что надо включать в выборку как курящих, так и некурящих. В таком случае параметры для расчета будут X max =2, X min =0. Какова будет средняя? Расчет средней по выражению (2+0)/2=1 не является правильным, поскольку прежняя средняя рассчитывалась только для курящих, а сейчас не учтено соотношение размеров групп курящих и некурящих. Например, если доля некурящих составляет 60%, а доля курящих - 40%, то тогда средняя составит 0,4.

    Сравним возможные размеры выборок и ошибки исследования:

    Если отсутствуют данные о соотношении репрезентативной и нерепрезентативной групп в генеральной совокупности, то расчет коэффициента изменчивости осуществляется через изменение величины А . Как правило, если средняя рассчитывается по выражению (X max +X min )/2, то А уменьшается до 5 и менее.

    Как видим, простая случайная выборка для достижения требуемой точности требует значительных объемов. Общий объем выборки можно существенно уменьшить двумя способами:

    1) выполняя районирование или стратификацию, то есть выделяя качественно различные группы в генеральной совокупности и размещая выборку именно среди представителей этих групп;

    2) выполняя выделение гнезд, то есть разделяя генеральную совокупность на большое количество одинаковых частей и распределяя выборку между этими частями.

    При проведении стратифицированной выборки можно поступать следующим образом (см. схему далее).

    Первоначально определяется, какой объем априорной информации известен о генеральной совокупности. Для правильно выполненной стратифицированной выборки минимального объема необходимо знать общую численность генеральной совокупности N , число изучаемых страт i , численность каждой страты N i , а внутри каждой страты соответствующее среднее значение изучаемой переменной и её дисперсию. Если все эти параметры известны, то с помощью рассмотренной выше номограммы можно рассчитать объем стратифицированной пропорциональной выборки.

    Для этого определяют сначала генеральную дисперсию изучаемой переменной как сумму внутригрупповой и межгрупповой дисперсий, потом определяют генеральное среднее по средним страт, потом определяют коэффициент изменчивости и по номограмме определяют при задании допустимой ошибки общую величину выборки. σ

    Генеральная дисперсия равна

    где σ 2 р - внутригрупповая дисперсия, а σ 2 m - межгрупповая дисперсия.

    Внутригрупповую дисперсию определяют по известным дисперсиям изучаемой переменной внутри каждой страты

    где N i - численность i -той страты, σ 2 i - дисперсия i -той страты.

    Межгрупповую дисперсию определяют, исходя из известных средних по каждой страте и рассчитанной на их основе генеральной средней:

    Если известно число страт, но неизвестен их объем (и/или объем генеральной совокупности), то рассчитывается сначала общий объем выборки указанным способом, а потом он делится на число страт так, чтобы в каждой страте разместилась бы одинаковая доля выборки - это будет стратифицированная равная выборка.

    Если неизвестны дисперсии внутри страт, то необходимо знать размах вариации внутри каждой страты, то есть значения X max и X min . Тогда дисперсии страт можно рассчитать, исходя из выражения

    Если неизвестна численность страт, то внутригрупповвая дисперсия рассчитывается как простое среднее арифметическое из дисперсий страт.

    Если неизвестны средние в каждой страте, но известен размах вариации, то средние внутри страт определяются как средние между крайними значениями изучаемой переменной

    Если наличие страт неизвестно, но по генеральной совокупности известны параметры среднего, дисперсии и плотности распределения единиц наблюдения, то осуществляется районная выборка по гнездовому или пропорциональному способам. Если единицы наблюдения размещены по территории, где находится генеральная совокупность, относительно равномерно (коэффициент вариации плотности размещения составляет не более 15-25%), то используется выделение гнезд, каждое из которых вмещает в себя одинаковое число единиц наблюдения. Гнезда выделяются так, что имеют одинаковый размер (например, площадь). Число гнезд определяется пропорционально отношению общего размера выборки n к общему числу единиц наблюдения N . Из каждого гнезда отбирается только одна единица наблюдения, размещение выборки по гнездам осуществляется равномерно-механическим или случайным методом.

    Если размещение единиц наблюдения по изучаемой территории неравномерно, то она разделяется на районы с одинаковым числом единиц наблюдения в каждом - это порайонная пропорциональная выборка. Для этого рассчитывается общий объем выборки по номограмме, после чего эта выборка распределяется по районам пропорционально численности единиц наблюдения. Внутри районов в этом случае размещение выборки выполняется либо гнездовым, либо иным способом, аналогично известным процедурам размещения выборок.

    Пример 5 . Воспользуемся примером 3, изучающим потребление сигарет. Если нет никаких данных о возможных параметрах изучаемой переменной, то при данных Р=95% , е=5% объем выборки составит 384 человека. Выделим две страты - мужчин и женщин. Пусть априори известно (например, из проведения пилотного исследования), что потребление сигарет в пачках за день составляет у мужчин X max =2, X min =0,33, у женщин X max =3, X min =0,1. Вычислим объем выборки в этом случае

    Поскольку о соотношении численностей страт нам ничего не известно, то принимаем, что их численности равны и доли их численностей в генеральной совокупности составляют по 0,5. Тогда внутригрупповая дисперсия будет

    а межгрупповая

    при генеральном среднем

    Тогда генеральная дисперсия будет

    и коэффициент изменчивости составит

    По номограмме при допустимой ошибке 5% объем выборки составит приблизительно 240 человек (более чем на 140 меньше, чем по таблице). В данном случае эта выборка должна быть разделена на 120 мужчин и 120 женщин.

    Если и этот объем выборки слишком велик, то нужно увеличивать количество страт, добиваясь того, чтобы размах вариации в каждой страте был минимален, а размеры страт близки, то есть стремиться к минимуму суммарной дисперсии.

    В случае, когда известен размер генеральной совокупности в целом, то возможно корректировать размер выборки на бесповторность следующим образом:

    1) для известных v% и e рассчитывается по номограмме размер выборки n 1 ;

    2) заданная допустимая ошибка корректируется с учетом размера генеральной совокупности

    3) по номограмме для скорректированной ошибки e correct и v% находится новый объем выборки n 2 .

    Пример 6. Предположим, что исследование проводится для целевого сегмента объемом 1600 единиц наблюдения при v% =25% и e =5%. По номограмме объем выборки тогда составит 100 единиц наблюдения. Корректируем ошибку с учетом размера выборки

    По номограмме скорректированный объем выборки составит (при v% =25% и e =5,2%) 90 единиц наблюдения.

    ГЛАВА 1.

    В этой части работы студент обрабатывает собранные им данные и делает вывод относительно поставленной задачи: как решить поставленную проблему.

    Для обработки студент может использовать MS Excel, SPSS, Statistika for Windows, MatLab, MatCad и другие программы обработки больших массивов данных. Основные задачи, решаемые при использовании этих средств:

    верификация данных:

    установление законов распределения;

    установление взаимосвязей между данными;

    классификация и сегментация данных;

    прогнозирование развития событий.

    Последовательность обработки данных исследования

    1. расчет в рамках анализа двумерных распределений по каждой таблице данных, коэффициента вариации, корреляционного отношения и стандартных отклонений4
    2. расчет корреляционной и ковариационной матриц;
    3. выбор массива данных по заранее заданным условиям;
    4. вычисление распределений (при учете заданных условий);
    5. перекодировка (исправление ошибок в данных);
    6. введение новых показателей (расчет индексов).

    Ниже в таблице описаны возможные методы анализа данных. Не следует, разумеется, применять их сразу все. Студент выбирает именно те 1-2 метода, которые наиболее подходят для раскрытия поставленной проблемы.

    Количественные методы анализа данных маркетинговых исследований
    1.Методы сжатия описательной статистики 2.Методы анализа систем показателей
    1.1 Группирование 1.2 Оценка параметров распределения 1.3 Ковариационная и корреляционная матрица
    2.1 Ориентация на интегральную качественную характеристику 2.2 Ориентация на количественный признак
    2.2.1 Дисперсионный анализ 2.2.2 Корреляционно-регрессионный анализ 2.2.3 Причинный анализ
    2.1.1 Без априорной информации об исследуемом признаке 2.1.2 С априорной информацией о классах признака 2.1.3 С априорной информацией о возрастании (убывании) признака)
    2.1.1.1 Методы экспертных оценок 2.1.1.2 Анализ матрицы данных.
    2.1.3.1 Усиление шкалы по результирующему признаку 2.1.3.2 Оценка существенности показателя (ранговые корреляции)
    2.1.1.2.1Факторный анализ 2.1.1.2.2Латентно-структурный анализ 2.1.1.2.3Кластерный анализ 2.1.1.2.4 Методы оценки значимости показателя
    2.1.2.1 Методы усиления номинальной шкалы по результирующему признаку 2.1.2.2 Оценка существенности показателей системы
    2.1.2.2.1 Методы теории распознавания образов 2.1.2.2.2 Методы теории информации 2.1.2.2.3 Методы теории графов

    Для определения основных характеристик в зависимости от применявшихся вопросов могут быть применены слудующие методы анализа измерений по шкалам в вопросах:

    Статистические методы выявления связей

    Шкала результирующего (итогового) признака Шкала факторного признака (предиктора) Метод статистической обработки
    Количественные (И,О,А,Р) Количественные (И,О,А,Р) Регрессии Корреляции
    Количественные (И,О,А,Р) Время (И) Динамика временных рядов
    Количественные (И,О,А,Р) Неколичественные (К,П) Дисперсионный анализ
    Количественные (И,О,А,Р) Ковариационный анализ Типологическая регрессия
    Неколичественные (К) Количественные (И,О,А,Р) Дискриминантный анализ Кластерный анализ Таксономия Расщепление смесей
    Неколичественные (П) Неколичественные (К,П) Ранговые корреляции Анализ таблиц сопряженности
    Количественные и неколичественные Количественные и неколичественные Логические решающие функции
    Типы шкал в вопросах: И - интервальная, О - относительная, А- абсолютная, Р - разностная, П - порядковая, К - классификационная (номинальная)

    Например, корреляционный анализ для сегментации потребителей выполняется так:

    1. выделяются средние значения, стандартные отклонения, коэффициент вариации, ошибку среднего значения и доверительный интервал;
    2. рассчитывается ковариационная и корреляционная матрица (например, в MS Excel);
    3. вычисляется «близость» объектов в пространстве характеристик (для сегментации);
    4. вычисляются пути максимальной корреляции в целях группировки переменных;
    5. вычисляются пути максимального расстояния по матрице расстояний в целях классификации объектов;
    6. определяются наиболее близкие группы, которые и будут сегментами потребителей;
    7. проверяется мера близости групп (например, корреляционное отношение).

    В конце этой главы студент описывает результаты анализа данных, так чтобы были ясны его решения поставленных задач работы, окончатеьные выводы и их формулировки.

    Заключение

    В этом разделе студент формулирует полное решение проблемы, поставленной в начале своей работы.

    Список литературы

    Список использованных источников (список литературы) надлежит выполнять в конце текста работы сообразно ГОСТ 7.1-84, например:

    Зиннуров У. Г. Основы маркетинговых исследований: Учебное пособие / У. Г. Зиннуров; Уфимск. гос. авиац. техн. ун-т. Уфа, 1996.- 110 с.

    Источники в списке располагаются в алфавитном порядке. На все перечисленные источники в работе необходимо сделать ссылки. Постраничные сноски не допускаются.

    В случае, если источником являются сайты Интернета, необходимо указывать полностью адрес того сайта (копируя его адресную строку), на котором была получена конкретная информация. При этом приводится дата последнего обращения к этому сайту, например.

    Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

    • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
    • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
    • Юридические лица России (2,2 млн. на начало 2005 года)
    • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

    Выборка (Выборочная совокупность)

    Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

    Репрезентативность выборки

    Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
    Пример:

    • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
    • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
    • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

    В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
    Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
    Пример:
    Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

    Ошибка выборки (доверительный интервал)

    Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
    Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
    Пример:
    Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
    Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
    Пример:

    • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
    • Проблема респондентов, отказывающихся отвечать на вопросы (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

    В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

    Типы выборок

    Выборки делятся на два типа:

    • вероятностные
    • невероятностные

    1. Вероятностные выборки
    1.1 Случайная выборка (простой случайный отбор)
    Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
    1.2 Механическая (систематическая) выборка
    Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
    1.3 Стратифицированная (районированная)
    Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
    1.4 Серийная (гнездовая или кластерная) выборка
    При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

    2.Невероятностные выборки
    Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
    2.1. Квотная выборка
    Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в достаточно часто.
    2.2. Метод снежного кома
    Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
    2.3 Стихийная выборка
    Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – в газетах/журналах, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
    2.4 Выборка типичных случаев
    Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

    Курс лекций по теории статистики

    Более подробную информацию по выборочным наблюдениям можно получить просмотрев .

    Генеральная совокупность
    Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей:
    - Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
    - Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
    - Юридические лица России (2,2 млн. на начало 2005 года)
    - Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

    Выборка (Выборочная совокупность)
    Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

    Репрезентативность выборки
    Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
    Пример:
    - Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
    - Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
    - Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.
    В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
    Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
    Пример:
    Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

    Ошибка выборки (доверительный интервал)
    Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
    Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
    Пример:
    Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
    Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
    Пример:
    - Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
    - Проблема респондентов, отказывающихся отвечать на вопросы анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)
    В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

    Типы выборок
    Выборки делятся на два типа:
    - вероятностные
    - невероятностные

    1. Вероятностные выборки
    1.1 Случайная выборка (простой случайный отбор)
    Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
    1.2 Механическая (систематическая) выборка
    Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
    1.3 Стратифицированная (районированная)
    Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
    1.4 Серийная (гнездовая или кластерная) выборка
    При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

    2. Невероятностные выборки
    Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
    2.1. Квотная выборка
    Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
    2.2. Метод снежного кома
    Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
    2.3 Стихийная выборка
    Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
    2.4 Выборка типичных случаев
    Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

    Калькулятор расчета ошибки и размера выборки (для случайной выборки)