Question 1

Вы хотите оценить средний чек за неделю для всех пользователей продукта. У вас есть данные по 5% пользователей, отобранных случайно. Что в этой задаче является генеральной совокупностью?

Accepted Answer

Генеральная совокупность — это вся группа, про которую вы делаете вывод, а выборка — наблюдаемая часть. Если цель — понять средний чек всех пользователей, то генеральная совокупность — это именно все пользователи, а не только те, кто попал в выборку. Выборка — это 5% случайно выбранных пользователей, по которым вы оцениваете параметр совокупности. Подмножества «только покупатели» или «только активные каждый день» — это уже другие совокупности и другие задачи. Типичная ошибка — считать выборку и генеральную совокупность одним и тем же и забывать про ограничения покрытия.

Question 2

Вы измерили NPS только у iOS-пользователей через опрос внутри приложения и хотите распространить результат на всех пользователей. Какой риск здесь ключевой?

Accepted Answer

Если выборка покрывает только часть аудитории, страдает репрезентативность относительно всей генеральной совокупности. Опрос внутри `iOS`-приложения охватывает только пользователей одной платформы, и если их состав по доходу, возрасту, странам или продуктовому поведению отличается от `Android`-пользователей, выборка не репрезентативна для всей аудитории. Распространять `NPS` на всех — систематическая ошибка обобщения. Это не survivorship bias (нет «выживших» и «не выживших»). Утверждение, что аудитории `iOS` и `Android` совпадают по поведению и доходу, эмпирически неверно для большинства продуктов. Шкала `NPS` сама по себе не идеальна, но это отдельная тема.

Question 3

Вы выложили ссылку на опрос в соцсетях и получили ответы в основном от людей с сильным недовольством продуктом. Какое смещение наиболее вероятно?

Accepted Answer

При добровольных опросах часто возникает ошибка отбора из-за самоотбора недовольных пользователей. Когда вероятность попасть в выборку зависит от отношения к продукту, она становится смещённой. Недовольные пользователи чаще тратят время на ответ, и итоговые оценки могут систематически занижать удовлетворённость в генеральной совокупности. Типичная ошибка — интерпретировать такой опрос как «мнение всех пользователей» без поправок на самоотбор.

Question 4

Аналитик посчитал средний доход на пользователя только среди тех, кто остался активным до 30-го дня, и сделал вывод о среднем доходе всех новичков. Какое смещение здесь наиболее характерно?

Accepted Answer

Ошибка выжившего возникает, когда анализируют только «выживших» пользователей и игнорируют тех, кто выбыл из выборки. Пользователи, дожившие до 30-го дня, обычно отличаются от тех, кто ушёл раньше: они могут быть более вовлечёнными и платежеспособными. Поэтому средний доход по «выжившим» завышает оценку для всей генеральной совокупности новичков. Типичная ловушка — строить метрики на условной подвыборке и выдавать их как общие.

Question 5

В опросе пользователи систематически занижают свой доход. Как лучше всего описать проблему в терминах качества данных?

Accepted Answer

Систематический `measurement error` приводит к смещению оценки, а не только к шуму. Если все пользователи в опросе систематически занижают доход (например, из-за желания казаться скромнее или страха налоговых вопросов), это measurement bias — систематическая ошибка измерения. Она смещает оценку даже на идеально репрезентативной выборке: выборочная статистика отклоняется от истинного значения в одну сторону. Survivorship bias предполагает разный отклик у бедных и богатых, что здесь не сказано. Ошибки измерения от разных пользователей не компенсируются, если они односторонние. И уж точно занижение дохода не устраняет smapling bias.

Вопросы по теме «Выборка и смещение»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика