Какой sanity check наиболее полезен, чтобы поймать «тихую» неполную загрузку дневной partition, когда данные частично не приехали?

AПроверять row count > 0 и что max(event_time) попадает в ожидаемый конец дня для каждой partition
BПроверять только среднее значение метрики за неделю и игнорировать дни
CПроверять, что график выглядит гладким на дашборде без числовых проверок
DВыбирать случайные 10 строк и считать, что этого достаточно для качества
Правильный ответ. Проверки row count и max(event_time) на уровне partition помогают быстро выявить неполноту загрузки.

Разбор

Частичная загрузка может не обнулить данные полностью, но сдвинет объем и конец временного окна. Если max(event_time) неожиданно ранний, это сигнал, что хвост дня не приехал, а если row count резко меньше нормы, вероятно missing data. Такие sanity check хорошо автоматизируются и дают быстрые алерты.

Проверь себя · 1/3разбор после ответа
Вы подозреваете duplicates в событиях из-за ретраев. Какой sanity check самый прямой?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Качество данных и инварианты»