Какой `sanity check` наиболее полезен, чтобы поймать «тихую» неполную загрузку дневной `partition`, когда данные частично не приехали?

Question

Карьерник · Accepted Answer

Правильный ответ: Проверять `row count > 0` и что `max(event_time)` попадает в ожидаемый конец дня для каждой `partition`. Проверки `row count` и `max(event_time)` на уровне `partition` помогают быстро выявить неполноту загрузки. Частичная загрузка может не обнулить данные полностью, но сдвинет объем и конец временного окна. Если `max(event_time)` неожиданно ранний, это сигнал, что хвост дня не приехал, а если `row count` резко меньше нормы, вероятно `missing data`. Такие `sanity check` хорошо автоматизируются и дают быстрые алерты.

Какой `sanity check` наиболее полезен, чтобы поймать «тихую» неполную загрузку дневной `partition`, когда данные частично не приехали?

Разбор

Ещё вопросы по теме «Качество данных и инварианты»

Какой sanity check наиболее полезен, чтобы поймать «тихую» неполную загрузку дневной partition, когда данные частично не приехали?

Разбор

Ещё вопросы по теме «Качество данных и инварианты»

Какой `sanity check` наиболее полезен, чтобы поймать «тихую» неполную загрузку дневной `partition`, когда данные частично не приехали?