Какой sanity check наиболее полезен, чтобы поймать «тихую» неполную загрузку дневной partition, когда данные частично не приехали?
AПроверять
row count > 0 и что max(event_time) попадает в ожидаемый конец дня для каждой partitionBПроверять только среднее значение метрики за неделю и игнорировать дни
CПроверять, что график выглядит гладким на дашборде без числовых проверок
DВыбирать случайные 10 строк и считать, что этого достаточно для качества
Правильный ответ. Проверки
row count и max(event_time) на уровне partition помогают быстро выявить неполноту загрузки.Разбор
Частичная загрузка может не обнулить данные полностью, но сдвинет объем и конец временного окна. Если max(event_time) неожиданно ранний, это сигнал, что хвост дня не приехал, а если row count резко меньше нормы, вероятно missing data. Такие sanity check хорошо автоматизируются и дают быстрые алерты.
Проверь себя · 1/3разбор после ответа
Вы подозреваете
duplicates в событиях из-за ретраев. Какой sanity check самый прямой?Ещё вопросы по теме «Качество данных и инварианты»
- В ежедневном дашборде `DAU` и количество событий резко упали начиная с 02:00 и остаются низкими до конца дня. Что проверить первым, чтобы быстро понять, это `missing data` или реальный бизнес-эффект?
- Какой `invariant` наиболее уместно добавить в ежедневный отчет по воронке e-commerce, чтобы ловить ошибки данных?
- Выручка по событиям в продуктовой витрине на 5 процентов выше, чем в платежной системе за тот же день. Что логичнее всего проверить первым в рамках `reconciliation`?
- Вчера число событий `purchase` выросло в 2 раза, но число уникальных `order_id` почти не изменилось. Какой источник проблемы наиболее вероятен?
- Метрики за понедельник резко просели, а за вторник резко выросли, при этом сумма за 2 дня почти не изменилась. Какой `sanity check` лучше всего указывает на `time shift`?
- Все вопросы по «Качество данных и инварианты» →