Выборка и смещение: вопросы для собеседования (часть 3)
Систематическая ошибка выборки, survivorship bias, selection bias — источники смещения, которые превращают любой анализ в мусор. На собеседовании дают кейс и просят найти, где может возникнуть смещение. Понимание этой темы показывает, способен ли аналитик критически мыслить о данных, а не просто считать метрики.
Вопросы 11–15 из 20
11Вы оцениваете среднюю доходность фондов за 10 лет, используя только фонды, которые существуют сегодня, и игнорируете закрытые фонды. Какой bias наиболее вероятен и в какую сторону?
AЭто `measurement error`, доходность обычно недооценивается
BЭто `survivorship bias`, и доходность обычно завышается
CЭто `selection bias`, и доходность обычно занижается
DЭто повышает `репрезентативность`, потому что закрытые фонды нерелевантны
Ответ: `survivorship bias` часто завышает результаты, потому что «плохие» объекты чаще исчезают из данных.
Если закрытые фонды закрывались из-за плохих результатов, их исключение делает оставшуюся выборку более успешной, чем была реальная `population` фондов. Это и есть `survivorship bias`. Типичная ловушка — принимать такие оценки как «истинные исторические результаты рынка» без учёта выбывших.
12Какой набор данных лучше всего помогает уменьшить `survivorship bias` при анализе исторических результатов объектов (например компаний, фондов или клиентов)?
AТолько текущие активные объекты, потому что они релевантнее
BТолько объекты с лучшими метриками за период
CТолько последний месяц наблюдений, чтобы не было шума
DИсторический список всех объектов за период, включая закрытые/ушедшие, с единым правилом включения в `population`
Ответ: Чтобы снизить `survivorship bias`, нужно включать выбывших и закрытых, а не только «выживших».
Смещение появляется, когда из данных исчезают неуспешные объекты и вы анализируете только оставшихся. Полный исторический реестр объектов с правильным определением `population` позволяет корректнее оценить средние и распределения. Типичная ошибка — использовать удобный «текущий» срез и считать, что он отражает прошлое.
13В email-опросе ответили 8% пользователей, и среди ответивших сильно больше VIP-клиентов, чем в `population`. Какой шаг наиболее уместен, чтобы снизить `selection bias` по известным признакам?
AПросто увеличить `alpha` и признать выводы значимыми
BСделать стратификацию/взвешивание ответов так, чтобы доли VIP и не-VIP в оценке соответствовали `population`
CУдалить все ответы VIP, чтобы не мешали
DСчитать результат валидным, потому что 8% — это много
Ответ: Взвешивание и стратификация помогают приблизить `sample` к структуре `population` по известным признакам.
Если вы знаете, что конкретный признак (например VIP) пере- или недопредставлен, можно использовать пост-стратификационные веса, чтобы восстановить доли как в `population`. Это снижает смещение по этому признаку, хотя не гарантирует устранение всех причин `selection bias`. Типичная ошибка — игнорировать перекос состава и интерпретировать ответы как репрезентативные.
14В `population` 80% пользователей — mobile и 20% — web, но в вашем `sample` получилось 95% mobile и 5% web из-за малого объёма. Какой подход помогает повысить `репрезентативность` по платформам?
AСобирать данные только по mobile, потому что их больше
BИспользовать стратифицированный отбор или квоты, чтобы доли mobile/web в `sample` соответствовали `population`
CИгнорировать платформы, потому что они не влияют на метрики
DЗаменить метрику на ту, где платформы не важны
Ответ: Стратификация помогает приблизить структуру `sample` к структуре `population` по важным признакам.
Когда `sample` случайно перекошен, оценки могут смещаться, если метрика различается между стратами. Стратифицированный отбор или квоты фиксируют доли, повышая `репрезентативность` и стабильность оценок. Типичная ошибка — сравнивать метрики между периодами, не контролируя, что изменился состав платформ.
15Аналитик оценивает удержание по списку email-подписчиков и делает выводы про всех пользователей продукта. В чём основная проблема?
AЭто `measurement error`, потому что email всегда неверный
BЭто `survivorship bias`, потому что подписчики всегда активнее
CЭто ограничение покрытия: `sample` формируется из неполного списка и даёт `selection bias` относительно `population`
DПроблемы нет, если подписчиков больше 10 тысяч
Ответ: Если `sampling frame` не покрывает всю `population`, возникают смещения из-за неполного покрытия.
Email-подписчики — это подмножество пользователей, и они могут отличаться по вовлечённости и мотивации. Поэтому метрики по ним могут систематически отличаться от метрик по всей `population`. Типичная ловушка — путать доступный список для отбора с реальной генеральной совокупностью.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram