Question 1

В ежедневном дашборде `DAU` и количество событий резко упали начиная с 02:00 и остаются низкими до конца дня. Что проверить первым, чтобы быстро понять, это `missing data` или реальный бизнес-эффект?

Accepted Answer

Первым делом делают базовый `sanity check` на полноту логов и корректность временных меток. Резкий обрыв ровно с конкретного часа часто указывает на сбой `logging` или ingestion. Проверка `row count` по часам и `max(event_time)` быстро показывает, что данные перестали поступать или начали отставать. Если в сырых данных тоже виден провал, это сильный сигнал `missing data`, а не бизнес-изменений.

Question 2

Какой `invariant` наиболее уместно добавить в ежедневный отчет по воронке e-commerce, чтобы ловить ошибки данных?

Accepted Answer

Логические отношения между шагами воронки — сильный `invariant` для поиска багов. Количество пользователей или событий на более позднем шаге не должно превышать предыдущий шаг, если определения согласованы. Нарушение такого `invariant` часто означает `duplicates`, неверную дедупликацию или смешение окон времени. Это быстрый способ поймать ошибки еще до интерпретации результата эксперимента или отчета.

Question 3

В отчете одновременно упали почти все метрики: `sessions`, `events`, `revenue`, и падение начинается ровно с 14:00. Какое наблюдение лучше всего подтверждает гипотезу `missing data`?

Accepted Answer

Резкий «обрыв» `row count` в сырых логах в конкретный час — характерный признак `missing data`. Системные сбои ingestion или `pipeline` часто дают ступеньку в определенный момент времени. Сравните `row count` и `max(event_time)` по часам с контрольными днями и проверьте мониторинги доставки. Если провал есть в сырых данных, дальнейшая статистика по бизнес-эффектам до восстановления данных будет некорректной.

Question 4

Вы подозреваете `duplicates` в событиях из-за ретраев. Какой `sanity check` самый прямой?

Accepted Answer

Проверка уникальности `event_id` напрямую ловит `duplicates` и дает понятный сигнал качества. Если `event_id` должен быть уникальным, то отношение `count(event_id) / count_distinct(event_id)` должно быть близко к 1. Рост этого показателя означает массовые повторы, часто из-за ретраев или повторной обработки. Далее полезно посмотреть, одинаков ли payload у дублей и есть ли кластеры по `ingest_time`.

Question 5

Какой `sanity check` наиболее полезен, чтобы поймать «тихую» неполную загрузку дневной `partition`, когда данные частично не приехали?

Accepted Answer

Проверки `row count` и `max(event_time)` на уровне `partition` помогают быстро выявить неполноту загрузки. Частичная загрузка может не обнулить данные полностью, но сдвинет объем и конец временного окна. Если `max(event_time)` неожиданно ранний, это сигнал, что хвост дня не приехал, а если `row count` резко меньше нормы, вероятно `missing data`. Такие `sanity check` хорошо автоматизируются и дают быстрые алерты.

Вопросы по теме «Качество данных и инварианты»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Логика