Агрегатная таблица показывает 100k сессий за день, а расчёт из сырых событий даёт 70k. Что логичнее проверить первым?
AВыбрать большее число для отчёта стейкхолдерам: показатель в 100k выглядит оптимистичнее текущей цифры
BУдалить агрегатную таблицу и оставить расчёт только из сырых данных без сверки правил агрегации и фильтрации
CУмножить значение из сырых данных на корректирующий коэффициент для выравнивания расхождения между источниками
DСверить определения сессии: правила сессионизации, фильтры событий, часовой пояс и дедупликацию на одном срезе данных
Правильный ответ. При сверке агрегатов и сырых данных первым делом выравнивают определение сессии и правила агрегации.
Разбор
Разные правила сессионизации и фильтры могут давать большие расхождения даже при корректных данных. Часто различаются часовой пояс, способы дедупликации и набор событий, которые считаются сессией. Когда определения совпали, можно искать технические причины: пропуски, дубликаты или ошибки в конкретном шаге пайплайна. Прыгать к умножению на коэффициент или удалять агрегат до сверки определений — путь к новым ошибкам.
Проверь себя · 1/2разбор после ответа
Вчера число событий
purchase выросло в 2 раза, но число уникальных order_id почти не изменилось. Какой источник проблемы наиболее вероятен?Ещё вопросы по теме «Качество данных и инварианты»
- В ежедневном дашборде `DAU` и количество событий резко упали начиная с 02:00 и остаются низкими до конца дня. Что проверить первым, чтобы быстро понять, это потеря данных или реальный бизнес-эффект?
- Какой инвариант наиболее уместно добавить в ежедневный отчёт по воронке e-commerce, чтобы быстро ловить ошибки данных?
- Выручка по событиям в продуктовой витрине на 5 процентов выше, чем в платёжной системе за тот же день. Что логичнее всего проверить первым в рамках сверки данных?
- Вчера число событий `purchase` выросло в 2 раза, но число уникальных `order_id` почти не изменилось. Какой источник проблемы наиболее вероятен?
- Метрики за понедельник резко просели, а за вторник резко выросли, при этом сумма за два дня почти не изменилась. Какая проверка лучше всего указывает на сдвиг времени?
- Все вопросы по «Качество данных и инварианты» →