Какая проверка согласованности наиболее полезна, чтобы поймать «тихую» неполную загрузку дневной партиции, когда данные частично не приехали?
AПроверять, что число строк больше нуля и что
max(event_time) попадает в ожидаемый конец дня для каждой суточной партицииBПроверять только среднее значение метрики за неделю и игнорировать суточные показатели объёма и временного окна загрузки
CПроверять, что график на дашборде выглядит гладким, без числовых проверок объёма строк и временного покрытия партиции
DБрать случайные 10 строк из суточной партиции и считать, что этого достаточно для оценки качества загрузки данных за день
Правильный ответ. Проверки числа строк и
max(event_time) на уровне суточной партиции помогают быстро выявить неполноту загрузки.Разбор
Частичная загрузка может не обнулить данные полностью, но сдвинет объём и конец временного окна. Если max(event_time) неожиданно ранний, это сигнал, что хвост дня не приехал, а если число строк резко меньше нормы, вероятно пропуск данных. Такие проверки хорошо автоматизируются и дают быстрые оповещения. Глаз на дашборде и случайная выборка из 10 строк такие сдвиги обычно не ловят.
Проверь себя · 1/2разбор после ответа
Вчера число событий
purchase выросло в 2 раза, но число уникальных order_id почти не изменилось. Какой источник проблемы наиболее вероятен?Ещё вопросы по теме «Качество данных и инварианты»
- В ежедневном дашборде `DAU` и количество событий резко упали начиная с 02:00 и остаются низкими до конца дня. Что проверить первым, чтобы быстро понять, это потеря данных или реальный бизнес-эффект?
- Какой инвариант наиболее уместно добавить в ежедневный отчёт по воронке e-commerce, чтобы быстро ловить ошибки данных?
- Выручка по событиям в продуктовой витрине на 5 процентов выше, чем в платёжной системе за тот же день. Что логичнее всего проверить первым в рамках сверки данных?
- Вчера число событий `purchase` выросло в 2 раза, но число уникальных `order_id` почти не изменилось. Какой источник проблемы наиболее вероятен?
- Метрики за понедельник резко просели, а за вторник резко выросли, при этом сумма за два дня почти не изменилась. Какая проверка лучше всего указывает на сдвиг времени?
- Все вопросы по «Качество данных и инварианты» →