Главная - Бетонные лотки
Интервальное оценивание генеральной доли. Расчет размера выборки
Интервальное оценивание вероятности события. Формулы расчета численности выборки при собственно-случайном способе отбора.

Для определения вероятностей интересующих нас событий мы применяем выборочный метод : проводим n независимых экспериментов, в каждом из которых может произойти (или не произойти) событие А (вероятность р появления события А в каждом эксперименте постоянна). Тогда относительная частота p* появлений событий А в серии из n испытаний принимается в качестве точечной оценки для вероятности p появления события А в отдельном испытании. При этом величину p* называют выборочной долей появлений события А , а р - генеральной долей .

В силу следствия из центральной предельной теоремы (теорема Муавра-Лапласа) относительную частоту события при большом объеме выборки можно считать нормально распределенной с параметрами M(p*)=p и

Поэтому при n>30 доверительный интервал для генеральной доли можно построить, используя формулы:


где u кр находится по таблицам функции Лапласа с учетом заданной доверительной вероятности γ: 2Ф(u кр)=γ.

При малом объеме выборки n≤30 предельная ошибка ε определяется по таблице распределения Стьюдента :
где t кр =t(k; α) и число степеней свободы k=n-1 вероятность α=1-γ (двустороння область).

Формулы справедливы, если отбор проводился случайным повторным образом (генеральная совокупность бесконечна), в противном случае необходимо сделать поправку на бесповторность отбора (таблица).

Средняя ошибка выборки для генеральной доли

Генеральная совокупность Бесконечная Конечная объема N
Тип отбора Повторный Бесповторный
Средняя ошибка выборки

Формулы расчета численности выборки при собственно-случайном способе отбора

Способ отбора Формулы определения численности выборки
для средней для доли
Повторный
Бесповторный
Доля единиц w = . Точность ε = . Вероятность γ =

Задачи о генеральной доле

На вопрос «Накрывает ли доверительный интервал заданное значение p 0 ?» - можно ответить, проверив статистическую гипотезу H 0:p=p 0 . При этом предполагается, что опыты проводятся по схеме испытаний Бернулли (независимы, вероятность p появления события А постоянна). По выборке объема n определяют относительную частоту p * появления события A: где m - количество появлений события А в серии из n испытаний. Для проверки гипотезы H 0 используется статистика, имеющая при достаточно большом объеме выборки стандартное нормальное распределение (табл. 1).
Таблица 1 - Гипотезы о генеральной доле

Гипотеза

H 0:p=p 0 H 0:p 1 =p 2
Предположения Схема испытаний Бернулли Схема испытаний Бернулли
Оценки по выборке
Статистика K
Распределение статистики K Стандартное нормальное N(0,1)

Пример №1 . С помощью случайного повторного отбора руководство фирмы провело выборочный опрос 900 своих служащих. Среди опрошенных оказалось 270 женщин. Постройте доверительный интервал , с вероятностью 0.95 накрывающий истинную долю женщин во всем коллективе фирмы.
Решение. По условию выборочная доля женщин составляет (относительная частота женщин среди всех опрошенных). Так как отбор является повторным, и объем выборки велик (n=900) предельная ошибка выборки определяется по формуле

Значение u кр находим по таблице функции Лапласа из соотношения 2Ф(u кр)=γ, т.е. Функция Лапласа (приложение 1) принимает значение 0.475 при u кр =1.96. Следовательно, предельная ошибка и искомый доверительный интервал
(p – ε, p + ε) = (0.3 – 0.18; 0.3 + 0.18) = (0.12; 0.48)
Итак, с вероятностью 0.95 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 0.12 до 0.48.

Пример №2 . Владелец автостоянки считает день «удачным», если автостоянка заполнена более, чем на 80 %. В течение года было проведено 40 проверок автостоянки, из которых 24 оказались «удачными». С вероятностью 0.98 найдите доверительный интервал для оценки истинной доли «удачных» дней в течение года.
Решение . Выборочная доля «удачных» дней составляет
По таблице функции Лапласа найдем значение u кр при заданной
доверительной вероятности
Ф(2.23) = 0.49, u кр = 2.33.
Считая отбор бесповторным (т.е. две проверки в один день не проводилось), найдем предельную ошибку:
где n=40 , N = 365 (дней). Отсюда
и доверительный интервал для генеральной доли: (p – ε, p + ε) = (0.6 – 0.17; 0.6 + 0.17) = (0.43; 0.77)
С вероятностью 0.98 можно ожидать, что доля «удачных» дней в течение года находится в интервале от 0.43 до 0.77.

Пример №3 . Проверив 2500 изделий в партии, обнаружили, что 400 изделий высшего сорта, а n–m – нет. Сколько надо проверить изделий, чтобы с уверенностью 95% определить долю высшего сорта с точностью до 0.01 ?
Решение ищем по формуле определения численности выборки для повторного отбора.

Ф(t) = γ/2 = 0.95/2 = 0.475 и этому значению по таблице Лапласа соответствует t=1.96
Выборочная доля w = 0.16; ошибка выборки ε = 0.01

Пример №4 . Партия изделий принимается, если вероятность того, что изделие окажется соответствующим стандарту, составляет не менее 0.97. Среди случайно отобранных 200 изделий проверяемой партии оказалось 193 соответствующих стандарту. Можно ли на уровне значимости α=0,02 принять партию?
Решение . Сформулируем основную и альтернативную гипотезы.
H 0:p=p 0 =0,97 - неизвестная генеральная доля p равна заданному значению p 0 =0,97. Применительно к условию - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, равна 0.97; т.е. партию изделий можно принять.
H 1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Наблюдаемое значение статистики K (таблица) вычислим при заданных значениях p 0 =0,97, n=200, m=193


Критическое значение находим по таблице функции Лапласа из равенства


По условию α=0,02 отсюда Ф(Ккр)=0,48 и Ккр=2,05. Критическая область левосторонняя, т.е. является интервалом (-∞;-K kp)= (-∞;-2,05). Наблюдаемое значение К набл =-0,415 не принадлежит критической области, следовательно, на данном уровне значимости нет оснований отклонять основную гипотезу. Партию изделий принять можно.

Пример №5 . Два завода изготавливают однотипные детали. Для оценки их качества сделаны выборки из продукции этих заводов и получены следующие результаты. Среди 200 отобранных изделий первого завода оказалось 20 бракованных, среди 300 изделий второго завода - 15 бракованных.
На уровне значимости 0.025 выяснить, имеется ли существенное различие в качестве изготавливаемых этими заводами деталей.

По условию α=0,025 отсюда Ф(Ккр)=0,4875 и Ккр=2,24. При двусторонней альтернативе область допустимых значений имеет вид (-2,24;2,24). Наблюдаемое значение K набл =2,15 попадает в этот интервал, т.е. на данном уровне значимости нет оснований отвергать основную гипотезу. Заводы изготавливают изделия одинакового качества.

Когда Вы задаете вопрос «Сколько мне потребуется респондентов для опроса?», Вы на самом деле спрашиваете: «Насколько большой должна быть моя выборка, чтобы точно оценить мою совокупность?» Принимая во внимание сложность этих понятий, мы разбили процесс на 5 шагов, давая Вам возможность легко рассчитать идеальный объем выборки и обеспечить точность результатов опроса.

5 шагов, с помощью которых Вы убедитесь, что Ваша выборка точно оценивает генеральную совокупность:

Шаг 1

Что представляет собой Ваша генеральная совокупность?

Под термином «генеральная совокупность» мы понимаем целую группу людей, мнение которой Вы собираетесь выяснить (выборка будет состоять из членов этой совокупности, которые фактически примут участие в опросе).

К примеру, если Вы хотите понять, как найти рынок сбыта для зубной пасты во Франции, Вашей совокупностью будут жители Франции. А если Вы пытаетесь определить, сколько дней отпуска предпочли бы иметь люди, работающие на компанию по производству зубной пасты, то Ваша генеральная совокупность - сотрудники этой компании.

Независимо от того, страна это или компания, установление генеральной совокупности - это важный первый шаг. После того как Вы определились с генеральной совокупностью, установите (приблизительно) ее численность. Например, во Франции живут около 65 миллионов человек, а в компании-производителе зубной пасты работает, скорее всего, гораздо меньше сотрудников.

Получили нужную цифру? Хорошо, тогда идем дальше…

Шаг 2

Какова требуемая точность?

Этот шаг является своего рода оценкой того, на какой риск Вы готовы пойти в отношении возможной неточности ответов на опрос в связи тем фактом, что Вы не опрашиваете всю генеральную совокупность. Поэтому Вам следует ответить на два вопроса:

  1. Насколько уверенными Вы должны быть в том, что полученные ответы отображают мнения генеральной совокупности?
    Это Ваш предел погрешности. Итак, допустим, 90% членов выборки любят жевательную резинку со вкусом винограда. Предел погрешности в 5% добавляет по 5% с каждой стороны этого числа, что означает, что фактически 85-95% участников выборки любят жевательную резинку со вкусом винограда. 5% - наиболее часто используемый предел погрешности, но Вы можете устанавливать его значение от 1% до 10% в зависимости от опроса. Не рекомендуется поднимать этот показатель выше 10%.
  2. Насколько уверенными Вы должны быть в том, что выборка в точности представляет генеральную совокупность?

    Это Ваш уровень доверия. Уровень доверия - это вероятность того, что выборка является значимой для полученных результатов. Расчет, как правило, производится следующим образом. Если бы Вы в случайном порядке определили еще 30 выборок из данной совокупности, то как часто полученный Вами результат для одной выборки существенно отличался бы от результатов для других 30 выборок? Уровень доверия в 95% означает, что в 95% случаев результаты совпадали бы. 95% - наиболее часто используемое значение, но Вы можете установить его на уровне 90% или 99% в зависимости от опроса. Опускать значение уровня доверия ниже 90% не рекомендуется.

Шаг 3

Какого размера выборка мне нужна?

В таблице, размещенной ниже, выберите приблизительный размер целевой совокупности и предел погрешности для определения количества требуемых завершенных опросов.

Теперь, когда у Вас есть значения шага 1 и шага 2, по удобной таблице ниже определите размер требуемой выборки…

Генеральная совокупность Предел погрешности Уровень доверия
10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88
500 81 218 476 176 218 286
1000 88 278 906 215 278 400
10 000 96 370 4900 264 370 623
100 000 96 383 8763 270 383 660
1 000 000+ 97 384 9513 271 384 664

Примечание . Данные приведены только в качестве ориентировочных инструкций. Кроме того, для генеральной совокупности свыше 1 млн. цифры можно округлять до сотен.

Шаг 4

Насколько отзывчивыми окажутся люди?

К сожалению, не все, кому Вы отправите опрос, дадут на него ответ.

Процент людей, заполнивших бланк полученного опроса, называют «процентной долей ответивших». Определение процентной доли ответивших на Ваш опрос поможет установить общее число экземпляров опроса, которое необходимо разослать для получения требуемого числа ответов.

Процентная доля ответивших прямым образом зависит от ряда факторов, таких как отношения с целевой аудиторией, продолжительность и сложность опроса, предлагаемые поощрения и тема опроса. Для онлайн-опросов, в которых с получателями предварительно не были установлены отношения, процентная доля ответивших в 20-30% считается очень высокой. Более консервативным и вероятным является значение 10-14%, если Вы до этого не проводили опрос в данной совокупности.

Шаг 5

Так скольким же людям отсылать опрос?

Это легкий этап!

Просто разделите число, полученное на шаге 3, на число, полученное на шаге 4. Это и есть Ваше волшебное число.

К примеру, если Вам нужно, чтобы опрос заполнили 100 женщин, пользующихся шампунем, и Вы считаете, что 10% женщин, которым Вы отправили опрос, его заполнят, требуется отослать опрос 1000 женщин (100/10%)!

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

  • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
  • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
  • Юридические лица России (2,2 млн. на начало 2005 года)
  • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:

  • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
  • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
  • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:

  • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
  • Проблема респондентов, отказывающихся отвечать на вопросы (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – в газетах/журналах, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Курс лекций по теории статистики

Более подробную информацию по выборочным наблюдениям можно получить просмотрев .

Необходимое количество респондентов зависит от целей опроса и того, насколько важна достоверность результатов. Чем выше достоверность Вы хотите получить, тем ниже должен быть допустимый предел погрешности.

Определения

Численность совокупности

Численность совокупности - это размер всей группы, которую Вы хотите представить в опросе.

  • Совокупность : вся группа, о которой Вы хотите сделать выводы.
  • Выборка : группа, которую Вы опрашиваете.

Подумайте о потенциальном размере Вашей целевой совокупности. Например, если Вы отправляете опрос пользователям iPhone мужского пола, проживающим в определенном регионе, Вам может потребоваться провести небольшое исследование с целью определить, сколько всего мужчин соответствует этим критериям.

Предел погрешности

Предел погрешности указывает, насколько результаты отклоняются от фактических значений. Это процентное значение, означающее, с какой вероятностью мнения и поведение выборки опроса отклоняются от мнения и поведения общей совокупности. Чтобы рассчитать предел погрешности, используйте наш калькулятор предела погрешности .

Чем меньше предел погрешности, тем точнее будет ответ при определенном уровне доверия.

В общем случае, чем больше размер выборки, тем меньше предел погрешности. Чем ближе размер выборки к численности совокупности, тем более репрезентативными будут результаты. И именно поэтому, посмотрев на таблицу ниже, Вы можете заметить, что с уменьшением рекомендованного размера выборки увеличивается допустимая погрешность.

Допустим, мы опросили 400 человек о том, поддерживают ли они президента своей страны, и 55% ответило утвердительно. Если уровень доверия равен 95%, а пределы погрешности составляют ±5%, то при стократном повторении опроса в одних и тех же условиях 95 раз из 100 ответ находился бы в пределах между 50% и 60%.

Уровень доверия

Уровень доверия указывает, насколько достоверными являются полученные результаты. Общепринятые стандарты, используемые исследователями: 90%, 95% и 99%.

Уровень доверия 95% означает, что, если повторить один и тот же опрос при одинаковых условиях 100 раз, 95 раз из 100 результаты будут приблизительно находиться в пределах погрешности.

При определении размера выборки используется z-оценка уровня доверия. Z-оценка - это мера стандартного отклонения определенной доли от средней величины.

Уровень доверия

90% 1,65
95% 1,96
99% 2,58

Процентное значение

Требования к размеру выборки могут меняться в зависимости от процентной доли выборки, которая дает определенный ответ. Например, если в предыдущем опросе было обнаружено, что 75% клиентов выражают удовлетворенность Вашим продуктом, и Вы хотите провести такой опрос снова, можно использовать p = 0,75 для расчета требуемого размера выборки.

Если опрос проводится в первый раз, то, поскольку опросы обычно содержат более одного вопроса (и поэтому оценивать требуется более одного процентного значения), мы рекомендуем использовать p = 0,5 для расчета оптимального размера выборки. Это дает нам примерный размер выборки, который не будет ни слишком консервативным ни слишком свободным.

Ниже приведена таблица, в которой указаны рекомендованные значения численности совокупности* для предела погрешности при уровне доверия 95%.

Численность совокупности Размер выборки для предела погрешности

100 000 и более

* Мы рассчитали рекомендованные размеры выборки по указанной выше формуле. В некоторых случаях размеры выборки были округлены вверх до 5 или 10. Для более точного расчета используйте наш калькулятор размера выборки .

Вы отправляете родителям детей Вашей школы опрос с вопросом о том, поддерживают ли они продление учебного дня. Вопрос имеет варианты ответа «Да» и «Нет».

Общее количество родителей (численность совокупности) - 10 000, и Вас устраивает предел погрешности ±10%. По таблице выше Вы можете определить, что в опросе должно принять участие не менее 100 человек.

70% из 100 опрошенных родителей ответили, что согласны на продление учебного дня. Таким образом, можно предположить, что если бы в опросе участвовали все 10 000 родителей, 60-80% людей поддержало бы продление учебного дня.

Сколько людей следует попросить пройти опрос?

Может определять, какому количеству людей нужно отправить опрос. Чем выше процентная доля ответивших, тем меньше людей необходимо попросить пройти опрос.

Например, если Вам нужно 100 респондентов и Вы ожидаете, что 25% людей, приглашенных принять участие в опросе, ответят на него, Вам необходимо пригласить 400 человек.

СОВЕТ. Если Вам требуется гарантированное количество респондентов, приобретите ответы на опрос в SurveyMonkey Audience. Вы укажете необходимое количество ответов, и мы найдем респондентов, соответствующих Вашим критериям целевой аудитории.

КАЛЬКУЛЯТОРЫ

Генеральная совокупность

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей:- Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)- Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)- Юридические лица России (2,2 млн. на начало 2005 года)- Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.Пример:- Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы. - Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.- Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.Важно понимать, что репрезентативность выборки и ошибка выборки - разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.Пример:Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.Ошибка выборки бывает двух видов - статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.Пример:Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц - 4%, для выборки в 1100 единиц - 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.Пример:- Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).- Проблема респондентов, отказывающихся отвечать на вопросы анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:
- вероятностные
- невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом - N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям - доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок - опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром - активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Калькулятор расчета ошибки и размера выборки

(для простой случайной выборки)

Пояснения к полям:

Доверительная вероятность
Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность

Ошибка выборки (доверительный интервал)
Интервал, вычисленный по выборочным данным, который с заданной вероятностью (доверительной) накрывает неизвестное истинное значение оцениваемого параметра распределения.

Доля признака

Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют, необходимо использовать значение равное 50, при котором достигается максимальная ошибка.

 


Читайте:



Завершился вывод войск ссср из афганистана

Завершился вывод войск ссср из афганистана

В 1987 году в Афганистане начала осуществляться политика национального примирения, принятая и одобренная на Пленуме ЦК НДПА в декабре 1986 года....

Новое направление: инноватика Сложно ли учиться на инноватике

Новое направление: инноватика Сложно ли учиться на инноватике

Предоставляют массу возможностей для выбора профессионального направления. Многие из предметов и направлений обозначены достаточно непонятными...

К чему снится племянница

К чему снится племянница

Учеными было установлено, что чаще всего, людям снится о любимых родственниках сон. Племянник, привидевшийся во время ночного отдыха, может...

Репейник: толкование сновидения

Репейник: толкование сновидения

Сонник репейник толкует как символ стремления к особой защищенности от возможных неприятностей. Сон, в котором вы видели одиноко стоящий куст,...

feed-image RSS