Question 1

Агрегатная таблица показывает 100k `sessions` за день, а расчет из сырых `events` дает 70k `sessions`. Что логичнее проверить первым?

Accepted Answer

При `reconciliation` агрегатов и сырых данных первым делом выравнивают `definition` и правила агрегации. Разные правила `sessionization` и фильтры могут давать большие расхождения даже при корректных данных. Часто различаются `time zone`, способы дедупликации и набор событий, которые считаются сессией. Когда определения совпали, можно искать технические причины: `missing data`, `duplicates` или ошибки в конкретном шаге пайплайна.

Question 2

В 9 утра пришел алерт: `DAU` на вчерашней дате на 20 процентов ниже, чем обычно. Какой порядок действий наиболее правильный для диагностики?

Accepted Answer

Правильный triage начинается с `sanity check`, затем идет `reconciliation`, и только потом — анализ изменений `instrumentation` и пайплайна. Если ingestion неполный, любая интерпретация `DAU` будет ошибочной, поэтому сначала проверяют `row count` и `max(event_time)`. Затем `reconciliation` с независимыми источниками и разрезами показывает, локальна ли проблема или системная. После этого проверяют деплои, изменения `schema` и `logging`, чтобы найти конкретную причину и оценить, какие метрики пострадали.

Question 3

Какую проверку лучше добавить как `invariant`, чтобы защититься от повторной загрузки одного и того же дня и появления `duplicates` в витрине?

Accepted Answer

Инвариант на уникальность `primary key` в `partition` вместе с `idempotency` предотвращает размножение фактов при повторных загрузках. Если загрузка неидемпотентна, `reprocessing` может добавлять те же строки повторно. Проверка вида `count_distinct(primary_key) = row count` ловит нарушение уникальности сразу после загрузки. Это надежнее визуальных проверок и помогает строить устойчивые пайплайны и отчеты.

Question 4

После внепланового `reprocessing` дневной объем событий вырос ровно на величину, близкую к исходному объему дня. Какой шаг лучше всего подтвердит, что причина — `duplicates`?

Accepted Answer

Сочетание `reprocessing` и роста повторов `event_id` — сильный индикатор `duplicates` из-за неидемпотентной загрузки. При повторной загрузке без `idempotency` одни и те же события могут записаться второй раз. Кластеры по `ingest_time` часто указывают на повторную запись в момент `reprocessing`. Проверка по `batch_id` и уникальности `event_id` помогает локализовать источник и оценить масштаб удвоения.

Question 5

Падение `conversion rate` заметно только у сегмента новых пользователей, а у возвращающихся все стабильно. Какой шаг диагностики наиболее разумен первым?

Accepted Answer

Сегментный эффект требует `reconciliation` знаменателей и проверки `instrumentation` сегментирующих полей. Если поле `user_type` сломалось или изменилось правило классификации, сегментная метрика может «поехать» без реального эффекта. Сверьте количество новых пользователей с независимым источником, например регистрациями, и проверьте `assignment` в эксперимент на этом же сегменте. Если знаменатель и сегментация корректны, тогда можно обсуждать реальное продуктовое влияние.

Качество данных и инварианты: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Логика