В 9 утра пришёл алерт: DAU за вчера на 20% ниже обычного. Какой порядок действий наиболее правильный для диагностики?
AСразу починить дашборд и пересобрать витрины событий, не проверяя сырые таблицы,
row_count и max(event_time) по источникам загрузкиBПроверить полноту загрузки (
row_count, max(event_time)), затем сверить значения между источниками и разрезами, и только потом смотреть изменения в схеме и логахCСразу объявить это реальным падением бизнеса и разослать отчёт стейкхолдерам, не сверяя
row_count и max(event_time) источниковDСпросить у продакт-менеджера, что менялось в продукте, и принять его версию без проверки таблиц
events, row_count и логовПравильный ответ. Правильная диагностика начинается с проверки полноты загрузки данных, затем сверка между источниками, и только потом — анализ изменений в инструментировании и пайплайне.
Разбор
Если загрузка данных неполная, любая интерпретация DAU будет ошибочной — поэтому сначала проверяют row_count и max(event_time). Затем сверка с независимыми источниками и в разрезах показывает, локальна проблема или системная. После этого смотрят деплои, изменения схемы и логов, чтобы найти конкретную причину. Прыгать в починку дашборда или объявлять падение бизнеса до этих шагов — типичные ошибки.
Проверь себя · 1/2разбор после ответа
Вчера число событий
purchase выросло в 2 раза, но число уникальных order_id почти не изменилось. Какой источник проблемы наиболее вероятен?Ещё вопросы по теме «Качество данных и инварианты»
- В ежедневном дашборде `DAU` и количество событий резко упали начиная с 02:00 и остаются низкими до конца дня. Что проверить первым, чтобы быстро понять, это потеря данных или реальный бизнес-эффект?
- Какой инвариант наиболее уместно добавить в ежедневный отчёт по воронке e-commerce, чтобы быстро ловить ошибки данных?
- Выручка по событиям в продуктовой витрине на 5 процентов выше, чем в платёжной системе за тот же день. Что логичнее всего проверить первым в рамках сверки данных?
- Вчера число событий `purchase` выросло в 2 раза, но число уникальных `order_id` почти не изменилось. Какой источник проблемы наиболее вероятен?
- Метрики за понедельник резко просели, а за вторник резко выросли, при этом сумма за два дня почти не изменилась. Какая проверка лучше всего указывает на сдвиг времени?
- Все вопросы по «Качество данных и инварианты» →