В генеральной совокупности 80% пользователей — mobile и 20% — web, но в вашей выборке получилось 95% mobile и 5% web из-за малого объёма. Какой подход помогает повысить репрезентативность по платформам?

AСобирать данные только по mobile: пользователей этой платформы в популяции больше, и оценка получится точнее по объёму
BИгнорировать платформу при оценке метрик: mobile и web ведут себя одинаково в рамках одной воронки покупки и подписки
CСделать поправку на доход или возраст без учёта платформы: социально-демографические сегменты важнее технического разреза
DИспользовать стратифицированный отбор или квоты: доли mobile и web в выборке приводятся к долям в генеральной совокупности
Правильный ответ. Стратификация помогает приблизить структуру выборки к структуре генеральной совокупности по важным признакам.

Разбор

Когда выборка перекошена по важной характеристике (платформа), оценки сводятся к группе с гипертрофированной долей. Стандартный приём — стратифицированный отбор или квоты при сборе, либо взвешивание inverse probability на этапе расчёта: вес каждого наблюдения обратно пропорционален вероятности его попадания в выборку, и средние возвращаются к долям популяции. Сужение до одной платформы и игнорирование платформ при разном поведении дают смещённые оценки. Поправка на доход или возраст без учёта платформы — поправка не на тот фактор.

Проверь себя · 1/3разбор после ответа
Вы случайно отбираете для анализа не пользователей, а сессии (каждая сессия равновероятна попасть в выборку). Какой риск возникает для оценки среднего числа сессий на пользователя?
Тренировать статистику в Telegram

Ещё вопросы по теме «Выборка и смещение»