Вы подозреваете duplicates в событиях из-за ретраев. Какой sanity check самый прямой?

AПосчитать долю повторов event_id: count(event_id) / count_distinct(event_id) и проверить, выросла ли она
BПосмотреть только сумму выручки и игнорировать количество событий
CСравнить только недельное среднее и не анализировать распределения
DПерезаписать таблицу без проверки уникальности, чтобы «обновить данные»
Правильный ответ. Проверка уникальности event_id напрямую ловит duplicates и дает понятный сигнал качества.

Разбор

Если event_id должен быть уникальным, то отношение count(event_id) / count_distinct(event_id) должно быть близко к 1. Рост этого показателя означает массовые повторы, часто из-за ретраев или повторной обработки. Далее полезно посмотреть, одинаков ли payload у дублей и есть ли кластеры по ingest_time.

Проверь себя · 1/3разбор после ответа
Вчера число событий purchase выросло в 2 раза, но число уникальных order_id почти не изменилось. Какой источник проблемы наиболее вероятен?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Качество данных и инварианты»