В 9 утра пришёл алерт: DAU за вчера на 20% ниже обычного. Какой порядок действий наиболее правильный для диагностики?

AСразу починить дашборд и пересобрать витрины событий, не проверяя сырые таблицы, row_count и max(event_time) по источникам загрузки
BПроверить полноту загрузки (row_count, max(event_time)), затем сверить значения между источниками и разрезами, и только потом смотреть изменения в схеме и логах
CСразу объявить это реальным падением бизнеса и разослать отчёт стейкхолдерам, не сверяя row_count и max(event_time) источников
DСпросить у продакт-менеджера, что менялось в продукте, и принять его версию без проверки таблиц events, row_count и логов
Правильный ответ. Правильная диагностика начинается с проверки полноты загрузки данных, затем сверка между источниками, и только потом — анализ изменений в инструментировании и пайплайне.

Разбор

Если загрузка данных неполная, любая интерпретация DAU будет ошибочной — поэтому сначала проверяют row_count и max(event_time). Затем сверка с независимыми источниками и в разрезах показывает, локальна проблема или системная. После этого смотрят деплои, изменения схемы и логов, чтобы найти конкретную причину. Прыгать в починку дашборда или объявлять падение бизнеса до этих шагов — типичные ошибки.

Проверь себя · 1/2разбор после ответа
Вчера число событий purchase выросло в 2 раза, но число уникальных order_id почти не изменилось. Какой источник проблемы наиболее вероятен?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Качество данных и инварианты»