В логировании покупок иногда происходит повторная отправка (retry), и одно событие фиксируется дважды. Вы считаете выручку как сумму по событиям. Как лучше описать проблему?

AЭто survivorship bias, потому что покупают только выжившие
BЭто selection bias, потому что покупки выбираются неслучайно
CЭто measurement error из-за дублей, который приводит к завышению метрики
DЭто улучшает репрезентативность, потому что данных становится больше
Правильный ответ. Дубли в событиях — это measurement error, который систематически искажает метрики.

Разбор

Если одно и то же действие учитывается несколько раз, сумма и производные метрики становятся завышенными. В отличие от случайного шума, дубль создаёт направленное смещение, которое не исчезает при росте объёма данных. Типичная ошибка — лечить это статистикой, хотя нужен deduplication по event_id или идемпотентность.

Проверь себя · 1/3разбор после ответа
В population 80% пользователей — mobile и 20% — web, но в вашем sample получилось 95% mobile и 5% web из-за малого объёма. Какой подход помогает повысить репрезентативность по платформам?
Тренировать статистику в Telegram

Ещё вопросы по теме «Выборка и смещение»