Вы случайно отбираете для анализа не пользователей, а сессии (каждая сессия равновероятна попасть в sample). Какой риск для оценки среднего числа сессий на пользователя?
A
sample будет переоценивать heavy users, и среднее по пользователям может оказаться смещённымBВозникнет
survivorship bias, потому что сессии не умираютCЭто
measurement error, потому что сессия измеряется неточноDРиска нет, потому что случайность отбора гарантирует
репрезентативностьПравильный ответ. Важно выбирать правильную единицу отбора:
sample по сессиям даёт другой объект оценки, чем по пользователям.Разбор
Пользователи с большим числом сессий попадают в выборку чаще, поэтому выборка по сессиям смещена в сторону более активных пользователей. Если ваша цель — среднее по пользователям, нужно отбирать пользователей или корректировать веса. Типичная ловушка — считать, что «случайная» выборка всегда репрезентативна для любой метрики.
Проверь себя · 1/3разбор после ответа
Если
measurement error является случайным и имеет нулевое среднее (например, E[error]=0), то какое влияние он чаще всего оказывает на оценку среднего значения метрики?Ещё вопросы по теме «Выборка и смещение»
- Вы хотите оценить средний чек за неделю для всех пользователей продукта. У вас есть данные по 5% пользователей, отобранных случайно. Что в этой задаче является `population`?
- Вы измерили NPS только у iOS-пользователей через in-app опрос и хотите распространить результат на всех пользователей. Какой риск здесь ключевой?
- Вы выложили ссылку на опрос в соцсетях и получили ответы в основном от людей с сильным недовольством продуктом. Какое смещение наиболее вероятно?
- Аналитик посчитал средний доход на пользователя только среди тех, кто остался активным до 30-го дня, и сделал вывод о среднем доходе всех новичков. Какой bias здесь наиболее характерен?
- В опросе пользователи систематически занижают свой доход. Как лучше всего описать проблему в терминах качества данных?
- Все вопросы по «Выборка и смещение» →