Question 1

Вы оцениваете среднюю доходность фондов за 10 лет, используя только фонды, которые существуют сегодня, и игнорируете закрытые фонды. Какой bias наиболее вероятен и в какую сторону?

Accepted Answer

`survivorship bias` часто завышает результаты, потому что «плохие» объекты чаще исчезают из данных. Если закрытые фонды закрывались из-за плохих результатов, их исключение делает оставшуюся выборку более успешной, чем была реальная `population` фондов. Это и есть `survivorship bias`. Типичная ловушка — принимать такие оценки как «истинные исторические результаты рынка» без учёта выбывших.

Question 2

Какой набор данных лучше всего помогает уменьшить `survivorship bias` при анализе исторических результатов объектов (например компаний, фондов или клиентов)?

Accepted Answer

Чтобы снизить `survivorship bias`, нужно включать выбывших и закрытых, а не только «выживших». Смещение появляется, когда из данных исчезают неуспешные объекты и вы анализируете только оставшихся. Полный исторический реестр объектов с правильным определением `population` позволяет корректнее оценить средние и распределения. Типичная ошибка — использовать удобный «текущий» срез и считать, что он отражает прошлое.

Question 3

В email-опросе ответили 8% пользователей, и среди ответивших сильно больше VIP-клиентов, чем в `population`. Какой шаг наиболее уместен, чтобы снизить `selection bias` по известным признакам?

Accepted Answer

Взвешивание и стратификация помогают приблизить `sample` к структуре `population` по известным признакам. Если вы знаете, что конкретный признак (например VIP) пере- или недопредставлен, можно использовать пост-стратификационные веса, чтобы восстановить доли как в `population`. Это снижает смещение по этому признаку, хотя не гарантирует устранение всех причин `selection bias`. Типичная ошибка — игнорировать перекос состава и интерпретировать ответы как репрезентативные.

Question 4

В `population` 80% пользователей — mobile и 20% — web, но в вашем `sample` получилось 95% mobile и 5% web из-за малого объёма. Какой подход помогает повысить `репрезентативность` по платформам?

Accepted Answer

Стратификация помогает приблизить структуру `sample` к структуре `population` по важным признакам. Когда `sample` случайно перекошен, оценки могут смещаться, если метрика различается между стратами. Стратифицированный отбор или квоты фиксируют доли, повышая `репрезентативность` и стабильность оценок. Типичная ошибка — сравнивать метрики между периодами, не контролируя, что изменился состав платформ.

Question 5

Аналитик оценивает удержание по списку email-подписчиков и делает выводы про всех пользователей продукта. В чём основная проблема?

Accepted Answer

Если `sampling frame` не покрывает всю `population`, возникают смещения из-за неполного покрытия. Email-подписчики — это подмножество пользователей, и они могут отличаться по вовлечённости и мотивации. Поэтому метрики по ним могут систематически отличаться от метрик по всей `population`. Типичная ловушка — путать доступный список для отбора с реальной генеральной совокупностью.

Выборка и смещение: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика