Question 1

Метрики за понедельник резко просели, а за вторник резко выросли, при этом сумма за 2 дня почти не изменилась. Какой `sanity check` лучше всего указывает на `time shift`?

Accepted Answer

Для поиска `time shift` смотрят почасовую картину и соответствие `time zone` при парсинге времени. Сдвиг границы дня приводит к переносу части событий между соседними датами, поэтому один день падает, а следующий растет. Проверка распределения по часам часто показывает «перекос» около полуночи. Полезно сравнить `event_time` и `ingest_time`, чтобы понять, это сдвиг времени или задержка доставки.

Question 2

Фронтенд-счетчик показывает 10k успешных оплат, а бэкенд-таблица заказов — 8k за тот же день. Какой следующий шаг в `reconciliation` наиболее полезен?

Accepted Answer

`reconciliation` лучше всего делать на уровне идентификаторов и этапов процесса, а не сравнивать только агрегаты. Сопоставление по `order_id` показывает, какие заказы видны на фронте, но не дошли до финализации на бэкенде, и наоборот. Разложение по стадиям выявляет, где именно теряются события: в `logging`, в очереди, в обработчике или в витрине. Это позволяет быстро отличить проблему данных от реального сбоя бизнес-процесса оплаты.

Question 3

Какое наблюдение сильнее всего говорит, что падение `conversion rate` связано с реальным бизнес-эффектом, а не с `missing data`?

Accepted Answer

Подтверждение эффекта независимыми источниками при нормальных `sanity check` чаще указывает на реальный бизнес-эффект. Если `row count` и `max(event_time)` выглядят нормально, меньше шансов, что проблема в неполноте данных. Когда эффект одновременно виден в независимых системах, например `billing`, и сопровождается сигналами из `support`, это усиливает гипотезу бизнес-изменения. После этого имеет смысл сегментировать эффект и проверить, не совпал ли он с продуктовым релизом или изменением политики.

Question 4

После обогащения отчета справочником число строк стало сильно больше, а `DAU` в отчете превысил `DAU` в исходной витрине событий. Что наиболее вероятно произошло?

Accepted Answer

Рост количества строк после `join` часто означает `one-to-many` и появление `duplicates` из-за неуникального ключа. Если справочник содержит несколько строк на один `primary key`, то при `join` каждая факт-строка размножается. Это ломает `invariant` сопоставимости метрик до и после обогащения и может раздувать `DAU`. Проверьте уникальность ключа в справочнике и сделайте `reconciliation` количества строк до и после `join`.

Question 5

Вчера количество событий `checkout` стало ноль, но появилось новое событие `checkout_v2` с похожими полями. Какое действие наиболее корректно?

Accepted Answer

Когда меняется название или схема события, нужно обновлять `schema` и делать `reconciliation`, прежде чем интерпретировать тренд. Нулевое значение старого события вместе с появлением нового часто означает смену `instrumentation`, а не бизнес-обвал. Сопоставьте события по ключам процесса, например `order_id`, и проверьте покрытие: какой процент старых кейсов теперь живет в `checkout_v2`. После `reconciliation` обновите правила подсчета и только затем пересматривайте выводы по воронке.

Качество данных и инварианты: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Логика