Вы подозреваете дубли в событиях из-за повторных отправок. Какая проверка адекватности самая прямая?

AПосчитать долю повторов как отношение count(event_id) к count(distinct event_id) и сравнить с базовым периодом
BПосмотреть только сумму выручки и игнорировать число событий, считая что бизнес-метрика по умолчанию защищена от дублей
CСравнить только недельное среднее значение метрики и не анализировать распределения, ожидая что дубли усреднятся в итоге
DПерезаписать таблицу заново без проверки уникальности, чтобы «обновить данные», и потом смотреть на свежий снимок отчёта
Правильный ответ. Проверка уникальности event_id напрямую ловит дубли и даёт понятный сигнал качества.

Разбор

Если event_id должен быть уникальным, то отношение count(event_id) к count(distinct event_id) должно быть близко к 1. Рост этого показателя означает массовые повторы, часто из-за повторных отправок или повторной обработки. Далее полезно посмотреть, одинакова ли полезная нагрузка у дублей и есть ли кластеры по времени загрузки.

Проверь себя · 1/2разбор после ответа
Каждый день в отчёте последние 2 часа выглядят как ноль событий, но на следующий день эти часы «дозаполняются». Какое объяснение наиболее вероятно?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Качество данных и инварианты»