Каждый день в отчете последние 2 часа выглядят как ноль событий, но на следующий день эти часы «дозаполняются». Какое объяснение наиболее вероятно?

AЭто time shift, потому что время всегда сдвигается на 2 часа ровно
BЭто late arrivals из-за батчевой доставки или задержки ingestion, и события приходят с лагом по ingest_time
CЭто duplicates, потому что нули всегда означают дубликаты
DЭто реальный бизнес-эффект, потому что пользователи прекращают активность строго за 2 часа до полуночи
Правильный ответ. Регулярный «провал хвоста» дня чаще всего означает late arrivals, а не изменение поведения пользователей.

Разбор

Если данные догружаются позже, то отчеты на свежем срезе будут недосчитывать последние часы. Сравните event_time и ingest_time, чтобы оценить лаг доставки и настроить watermark или задержку публикации витрины. Важно учитывать это в sanity check, чтобы не принимать задержку данных за бизнес-падение.

Проверь себя · 1/3разбор после ответа
Какой sanity check наиболее полезен, чтобы поймать «тихую» неполную загрузку дневной partition, когда данные частично не приехали?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Качество данных и инварианты»