Статистика - самая точная из всех неточных наук.
- Г. Флобер
- Г. Флобер
Наткнулся в Интернете на вот такое видео, которое захотелось разобрать. Эту запись можно рассмотреть как ликбез в области статистики или как продолжение серии "научных анекдотов":
scinquisitor.livejournal.com/9724.html
scinquisitor.livejournal.com/14730.html
scinquisitor.livejournal.com/10323.html
На сайте ВЦИОМ wciom.ru/index.php сделано утверждение: "Опрошено 1600 человек в 138 населенных пунктах в 46 областях, краях и республиках России. Статистическая погрешность не превышает 3,4%". Далее приведена таблица, из которой видно, что 32% Россиян считают, что Солнце вращается вокруг Земли, а не наоборот, а так же ряд других не очень приятных для патриота РФ статистических данных.
В обсуждаемом ролике говорится, что фраза на сайте ВЦИОМ: "статистическая погрешность не превышает 3,4%" - является "артефактом" и "ни о чем не говорит". На основании чего ВЦИОМ обвиняется в подтасовке и выдумывании фактов. В конце ролика нам сообщают, что "время, когда все верят в социологические опросы, должно кануть в лету" - настораживающее заявление для тех кто хоть немного понимает как работает статистика.
Если набрать в гугле www.google.ru/ словосочетание "Статистическая погрешность" мы увидим, что не только ВЦИОМ пользуется данным термином в обсуждаемом контексте. Приведу лишь пару примеров:
"Статистическая погрешность при такой выборке не превышает 2,3%" - Фонд "Общественное Мнение" www.fom.ru/about/18.html
"Для данного объема выборочной совокупности максимальная статистическая погрешность выборки при доверительном уровне 0,95 равна 2,36 %" - Центр Социологических и Маркетинговых Исследвоаний "Аналитик" www.socio-research.ru/svd/cnt/ru/fldr_mainmenu/fldr_publications/fldr_thesis/fldr_dnv_citymodification/fldr_dnv_abstract/cnt_basis
Это должно было послужить неким сигналом, что дело все-таки не во ВЦИОМе. Автор ролика мог предположить, что он просто не понимает значения термина "статистическая погрешность" в контексте социологических исследований. Но не предположил.
Из приведенных выше контекстов понятно, что максимальная статистическая погрешность в социологическом исследовании - это некая величина не зависящая от того, какими были ответы респондентов (ведь приводится одна величина на множество вопросов, с разным распределением ответов), но зависящая от размера выборки, а так же от доверительного уровня.
Попробую объяснить не вдаваясь в математические детали, что такое статистическая погрешность и доверительный уровень.
Предположим, что в действительности у 50% людей в некотором городе с населением в 100000 человек есть машина. Мы хотели бы узнать это число, но всех опросить не можем. Давайте много раз возьмем случайную выборку из 383 человек и спросим их "есть ли у Вас машина?" (предполагая честность ответов). При таких условиях в 95% случаев опрос покажет, что машина имеется у 45-55% из взятых 383 человек. То есть в 95% случаев полученные данные каждого из небольших опросов будут не больше, чем на 5% отличаться от реального значения - доли людей, у которых в действительности есть машина (50%).
В данном случае 5% - это статистическая погрешность. 95% - это доверительный уровень при котором эта погрешность посчитана. 383 человека - это взятая выборка. 100 000 - общий размер изучаемой популяции.
Чтобы получить меньшую статистическую погрешность при том же доверительном уровне, нам необходимо иметь большую выборку. В моем примере, если мы возьмем случайным образом не 383 человек, а 1056 человек, то в 95% случаев опрос покажет, что машина имеется у 47-53% и в 99% случаев, что у 46-54% людей. То есть в среднем результаты опроса будут ближе к действительности .
Когда делается социальный опрос мы не знаем удалось ли нам установить точную долю людей, дающих некий ответ на заданный вопрос. Но мы знаем с заданной вероятностью (доверительный уровень), что находимся где-то в рамках статистической погрешности .
Здесь сразу хочу отметить еще одну деталь. Полученные погрешности посчитаны уже исходя из предположения, что у 50% людей в данной популяции в действительности имеется автомобиль. Но на практике мы именно это и пытаемся узнать - у какой доли населения есть машина?! Нет ли здесь порочного круга или парадокса? Нисколько. Дело в том, что мы ищем максимальную погрешность.
Предположим, что у нас есть вопрос с двумя вариантами ответа, как в примере с автомобилем. Он либо есть у человека, либо его нет. Если у абсолютно всех людей из популяции есть автомобиль (или его нет ни у кого) то какой бы не была наша выборка, доля людей с автомобилем в этой выборке будет точно равна доли людей с автомобилем во всей популяции - 100% (или 0%). То есть погрешность измерений будет равна нулю.
Если в действительности в популяции один из вариантов ответа преобладает над другим, то погрешность измерений падает (это так же видно из формулы, которая приведена в конце статьи). Если ровно половина людей имеет машину, а половина людей машины не имеет, погрешность опросов будет максимальной. Предполагая, что 50% людей имеют машину мы добиваемся максимального значения погрешности т.е. работаем против себя, переоцениваем неточность наших методов. В действительности погрешность будет не больше, чем посчитанная, но может быть меньше.
Автор ролика утверждает, что "ВЦИОМ показывает погрешность, которая совсем ни о чем не говорит" и, на этом основании, заявляется, что "можно однозначно утверждать: в Рамках страны ценность исследования ВЦИОМа равна нулю".
В случае с опросом ВЦИОМа мы имеем следующие показатели.
Размер популяции - это максимальная оценка населения России, примерно 145 000 000 человек. Можно отметить, что с точки зрения конечных чисел, разницы между 145 000 000 и, скажем 1 000 000 в этой графе не будет практически никакой, поэтому точность данной оценки не принципиальна (она играет роль лишь при малых значениях размера популяции). Размер нашей выборки - 1600 человек. Доверительный уровень (как у меня получилось обратным расчетом) - 99%.
Поскольку мы хотим максимизировать погрешность будем исходить из того, что 50% людей выберут некий вариант ответа на вопрос, например, вариант ответа "да", а 50% не выберут.
Итак, мы теперь можем расшифровать популярно значение того, что написано на сайте ВЦИОМ - то, чего не понял автор ролика, но взялся критиковать. "Статистическая погрешность не превышает 3,4%"
С вероятностью 99% доля ответов из рассмотренной подвыборки в 1600 человек по любому взятому в опросе вопросу не отличается более, чем на 3.4% от реальной доли Россиян, которые дали бы аналогичной ответ на данный вопрос. Это справедливо при допущении, что выборка репрезентативная (что опрашивались люди, действительно, случайно, а не специально выискивались особо одаренные) и предположении о нормальном распределении.
С уверенностью в 99% мы можем сказать, что в России на вопрос "Солнце вращается вокруг Земли" ответят 32% плюс минус 3.4% людей.
Таким образом, опровергнуты следующие утверждения:
"ВЦИОМ показывает погрешность, которая совсем ни о чем не говорит"
"Можно однозначно утверждать: в Рамках страны ценность исследования ВЦИОМа равна нулю"
Я не берусь давать оценку деятельности ВЦИОМа - я не знаю, подделывают ли они сырые данные (это отдельный вопрос) и т.д. но могу сказать лишь то, что вся критика деятельности ВЦИОМа и статистики, использованной данной организацией в социальных опросах, приведенная в данном конкретном ролике не обоснована и связана с тем, что автор ролика не потрудился разобраться в той терминологии которая используется в формулах расчета.
Кстати, для математически подкованных любителей формул, вот они:
x | = | Z(c/100)2r(100-r) |
n | = | N x/((N-1)E2 + x) |
E | = | Sqrt[(N - n)x/n(N-1)] |
Здесь c - доверительный уровень (например, 99%), n -размер выборки (например, 1600), N - размер популяции (например, 145 000 000), E - статистическая ошибка, r - доля интересующих нас ответов (например, 50% для оценки максимальной ошибки). Вторая формула позволяет посчитать необходимый размер выборки при заданной статистической ошибке. Третья формула позволяет посчитать значение статистической ошибки при данном размере выборки. Отмечу, что при r = 0, как я и говорил, E = 0 при любых n не равных нулю.
Формула взята с сайта, где имеется калькулятор, позволяющий посчитать эту самую статистическую ошибку для некой выборки и ряд других пояснений на английском для тех, кто хочет подробно разобраться в математике, а не только в самой идее www.raosoft.com/samplesize.html
Профилактика ФГМ (фимоза головного мозга - lurkmore.ru/ФГМ ) - это очень полезная деятельности, однако, не стоит выдавать за борьбу с ФГМ борьбу со статистикой или социологией, а так же пропаганду очередной теории заговора, что все социологические опросы куплены и так далее.
Комментарии (0)