В логировании покупок иногда происходит повторная отправка (retry), и одно событие фиксируется дважды. Вы считаете выручку как сумму по событиям. Как лучше описать проблему?
AЭто
survivorship bias, потому что покупают только выжившиеBЭто
selection bias, потому что покупки выбираются неслучайноCЭто
measurement error из-за дублей, который приводит к завышению метрикиDЭто улучшает
репрезентативность, потому что данных становится большеПравильный ответ. Дубли в событиях — это
measurement error, который систематически искажает метрики.Разбор
Если одно и то же действие учитывается несколько раз, сумма и производные метрики становятся завышенными. В отличие от случайного шума, дубль создаёт направленное смещение, которое не исчезает при росте объёма данных. Типичная ошибка — лечить это статистикой, хотя нужен deduplication по event_id или идемпотентность.
Проверь себя · 1/3разбор после ответа
В
population 80% пользователей — mobile и 20% — web, но в вашем sample получилось 95% mobile и 5% web из-за малого объёма. Какой подход помогает повысить репрезентативность по платформам?Ещё вопросы по теме «Выборка и смещение»
- Вы хотите оценить средний чек за неделю для всех пользователей продукта. У вас есть данные по 5% пользователей, отобранных случайно. Что в этой задаче является `population`?
- Вы измерили NPS только у iOS-пользователей через in-app опрос и хотите распространить результат на всех пользователей. Какой риск здесь ключевой?
- Вы выложили ссылку на опрос в соцсетях и получили ответы в основном от людей с сильным недовольством продуктом. Какое смещение наиболее вероятно?
- Аналитик посчитал средний доход на пользователя только среди тех, кто остался активным до 30-го дня, и сделал вывод о среднем доходе всех новичков. Какой bias здесь наиболее характерен?
- В опросе пользователи систематически занижают свой доход. Как лучше всего описать проблему в терминах качества данных?
- Все вопросы по «Выборка и смещение» →