В генеральной совокупности 80% пользователей — mobile и 20% — web, но в вашей выборке получилось 95% mobile и 5% web из-за малого объёма. Какой подход помогает повысить репрезентативность по платформам?
AСобирать данные только по
mobile: пользователей этой платформы в популяции больше, и оценка получится точнее по объёмуBИгнорировать платформу при оценке метрик:
mobile и web ведут себя одинаково в рамках одной воронки покупки и подпискиCСделать поправку на доход или возраст без учёта платформы: социально-демографические сегменты важнее технического разреза
DИспользовать стратифицированный отбор или квоты: доли
mobile и web в выборке приводятся к долям в генеральной совокупностиПравильный ответ. Стратификация помогает приблизить структуру выборки к структуре генеральной совокупности по важным признакам.
Разбор
Когда выборка перекошена по важной характеристике (платформа), оценки сводятся к группе с гипертрофированной долей. Стандартный приём — стратифицированный отбор или квоты при сборе, либо взвешивание inverse probability на этапе расчёта: вес каждого наблюдения обратно пропорционален вероятности его попадания в выборку, и средние возвращаются к долям популяции. Сужение до одной платформы и игнорирование платформ при разном поведении дают смещённые оценки. Поправка на доход или возраст без учёта платформы — поправка не на тот фактор.
Проверь себя · 1/3разбор после ответа
Вы случайно отбираете для анализа не пользователей, а сессии (каждая сессия равновероятна попасть в выборку). Какой риск возникает для оценки среднего числа сессий на пользователя?
Ещё вопросы по теме «Выборка и смещение»
- Вы хотите оценить средний чек за неделю для всех пользователей продукта. У вас есть данные по 5% пользователей, отобранных случайно. Что в этой задаче является генеральной совокупностью?
- Вы измерили NPS только у iOS-пользователей через опрос внутри приложения и хотите распространить результат на всех пользователей. Какой риск здесь ключевой?
- Вы выложили ссылку на опрос в соцсетях и получили ответы в основном от людей с сильным недовольством продуктом. Какое смещение наиболее вероятно?
- Аналитик посчитал средний доход на пользователя только среди тех, кто остался активным до 30-го дня, и сделал вывод о среднем доходе всех новичков. Какое смещение здесь наиболее характерно?
- В опросе пользователи систематически занижают свой доход. Как лучше всего описать проблему в терминах качества данных?
- Все вопросы по «Выборка и смещение» →