Агрегатная таблица показывает 100k sessions за день, а расчет из сырых events дает 70k sessions. Что логичнее проверить первым?

AСразу выбрать число, которое больше, потому что оно выглядит оптимистичнее
BУмножить 70k на фиксированный коэффициент, чтобы «починить» расхождение
CСверить definition sessions: правила sessionization, фильтры событий, time zone и deduplication на одном и том же срезе данных
DУдалить aggregate таблицу и считать только из сырых данных без проверки
Правильный ответ. При reconciliation агрегатов и сырых данных первым делом выравнивают definition и правила агрегации.

Разбор

Разные правила sessionization и фильтры могут давать большие расхождения даже при корректных данных. Часто различаются time zone, способы дедупликации и набор событий, которые считаются сессией. Когда определения совпали, можно искать технические причины: missing data, duplicates или ошибки в конкретном шаге пайплайна.

Проверь себя · 1/3разбор после ответа
В отчете по странам доля unknown резко выросла до 40 процентов, и региональные метрики стали «прыгать». Что проверить первым?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Качество данных и инварианты»