В отчете по странам доля unknown резко выросла до 40 процентов, и региональные метрики стали «прыгать». Что проверить первым?
AПокрытие ключа
country_id: рост null rate после join и появление новых кодов, которых нет в справочникеBСчитать, что пользователи массово переехали и страна перестала определяться
CИгнорировать
unknown, потому что он всегда шум в данныхDПоменять группировку на континенты, чтобы скрыть проблему
Правильный ответ. Резкий рост
null rate после join обычно указывает на проблемы ключей или missing data в справочнике.Разбор
Причина может быть в рассинхронизации справочника, смене формата country_id или появлении новых значений без обновления витрины. Сделайте reconciliation покрытия: какая доля фактов не находит матч в справочнике и как это изменилось относительно контроля. После этого проверяют обновления schema и расписание загрузки справочника.
Проверь себя · 1/3разбор после ответа
В отчете по странам доля
unknown резко выросла до 40 процентов, и региональные метрики стали «прыгать». Что проверить первым?Ещё вопросы по теме «Качество данных и инварианты»
- В ежедневном дашборде `DAU` и количество событий резко упали начиная с 02:00 и остаются низкими до конца дня. Что проверить первым, чтобы быстро понять, это `missing data` или реальный бизнес-эффект?
- Какой `invariant` наиболее уместно добавить в ежедневный отчет по воронке e-commerce, чтобы ловить ошибки данных?
- Выручка по событиям в продуктовой витрине на 5 процентов выше, чем в платежной системе за тот же день. Что логичнее всего проверить первым в рамках `reconciliation`?
- Вчера число событий `purchase` выросло в 2 раза, но число уникальных `order_id` почти не изменилось. Какой источник проблемы наиболее вероятен?
- Метрики за понедельник резко просели, а за вторник резко выросли, при этом сумма за 2 дня почти не изменилась. Какой `sanity check` лучше всего указывает на `time shift`?
- Все вопросы по «Качество данных и инварианты» →