В email-опросе ответили 8% пользователей, и среди ответивших сильно больше VIP-клиентов, чем в population. Какой шаг наиболее уместен, чтобы снизить selection bias по известным признакам?
AПросто увеличить
alpha и признать выводы значимымиBСделать стратификацию/взвешивание ответов так, чтобы доли VIP и не-VIP в оценке соответствовали
populationCУдалить все ответы VIP, чтобы не мешали
DСчитать результат валидным, потому что 8% — это много
Правильный ответ. Взвешивание и стратификация помогают приблизить
sample к структуре population по известным признакам.Разбор
Если вы знаете, что конкретный признак (например VIP) пере- или недопредставлен, можно использовать пост-стратификационные веса, чтобы восстановить доли как в population. Это снижает смещение по этому признаку, хотя не гарантирует устранение всех причин selection bias. Типичная ошибка — игнорировать перекос состава и интерпретировать ответы как репрезентативные.
Проверь себя · 1/3разбор после ответа
Если
measurement error является случайным и имеет нулевое среднее (например, E[error]=0), то какое влияние он чаще всего оказывает на оценку среднего значения метрики?Ещё вопросы по теме «Выборка и смещение»
- Вы хотите оценить средний чек за неделю для всех пользователей продукта. У вас есть данные по 5% пользователей, отобранных случайно. Что в этой задаче является `population`?
- Вы измерили NPS только у iOS-пользователей через in-app опрос и хотите распространить результат на всех пользователей. Какой риск здесь ключевой?
- Вы выложили ссылку на опрос в соцсетях и получили ответы в основном от людей с сильным недовольством продуктом. Какое смещение наиболее вероятно?
- Аналитик посчитал средний доход на пользователя только среди тех, кто остался активным до 30-го дня, и сделал вывод о среднем доходе всех новичков. Какой bias здесь наиболее характерен?
- В опросе пользователи систематически занижают свой доход. Как лучше всего описать проблему в терминах качества данных?
- Все вопросы по «Выборка и смещение» →