Вы хотите оценить отток подписчиков за месяц, но берёте в анализ только тех, кто открывал приложение на прошлой неделе. Что наиболее вероятно произойдёт с оценкой оттока и почему?
AОтток будет занижен: вы исключили «тихо ушедших» и получили смещение отбора с элементами выживальщиков (survivorship bias)
BОтток будет завышен, потому что активные пользователи чаще отписываются, и среди них доля ушедших получится выше реальной
CОтток окажется точным, поскольку активные пользователи лучше отражают всю совокупность подписчиков сервиса в среднем за месяц
DОтток не изменится, так как выборка считается случайной, а фильтр по активности не влияет на оценку оттока подписчиков
Правильный ответ. Если вы исключаете неактивных, вы меняете объект анализа (генеральную совокупность) и обычно занижаете отток.
Разбор
Выборка только активных смещена в сторону пользователей, которые с большей вероятностью остаются, поэтому отток в такой выборке будет ниже, чем в полной совокупности подписчиков. Это смещение похоже на survivorship bias (смещение выживших), потому что вы анализируете тех, кто «дожил» до условия активности. Типичная ошибка — не замечать, что фильтр по активности меняет сам объект оценки.
Проверь себя · 1/3разбор после ответа
Аналитик оценивает удержание по списку подписчиков на рассылку и делает выводы про всех пользователей продукта. В чём основная проблема такого подхода?
Ещё вопросы по теме «Выборка и смещение»
- Вы хотите оценить средний чек за неделю для всех пользователей продукта. У вас есть данные по 5% пользователей, отобранных случайно. Что в этой задаче является генеральной совокупностью?
- Вы измерили NPS только у iOS-пользователей через опрос внутри приложения и хотите распространить результат на всех пользователей. Какой риск здесь ключевой?
- Вы выложили ссылку на опрос в соцсетях и получили ответы в основном от людей с сильным недовольством продуктом. Какое смещение наиболее вероятно?
- Аналитик посчитал средний доход на пользователя только среди тех, кто остался активным до 30-го дня, и сделал вывод о среднем доходе всех новичков. Какое смещение здесь наиболее характерно?
- В опросе пользователи систематически занижают свой доход. Как лучше всего описать проблему в терминах качества данных?
- Все вопросы по «Выборка и смещение» →