В каталоге всего 10 тыс sku. В отчёте за день показатель unique_sku_sold равен 12 тыс. Что говорит constraints sanity-check?
AЭто нормально: продажи могут быть выше размера каталога из-за возвратов.
BЭто означает, что каталог вырос в этот день, и метрика автоматически корректна.
CНужно умножить 12 тыс на средний чек, чтобы проверить
units.DНарушен
upper bound: уникальных проданных sku не может быть больше размера каталога, значит вероятна ошибка джойна, фильтра или dedup.Правильный ответ. Если результат превышает очевидный
upper bound, сначала ищите ошибку в расчёте, а не объяснение в данных.Разбор
При фиксированном каталоге максимум уникальных sku за день ограничен размером каталога. Значение выше этого upper bound обычно появляется из-за неверного units уровня уникальности (например, считаете sku_id вместе с store_id) или из-за дублей после джойна. грубая прикидка проверка constraints помогает быстро локализовать такие баги. После исправления стоит сверить ключи агрегации и логику dedup.
Проверь себя · 1/3разбор после ответа
Нужно сделать
backfill 2 млрд строк в хранилище. Пайплайн стабильно обрабатывает 50 тыс строк в секунду. Какая грубая прикидка оценка времени ближе всего?Ещё вопросы по теме «Sanity-check и оценка»
- В дашборде метрика `conversion` определена как доля пользователей, совершивших хотя бы одну покупку за день. В отчёте вы видите 130%. Какой грубая прикидка `sanity-check` по `constraints` наиболее уместен?
- У вас 2.5 млн `events` в день и нужно прикинуть объём `events` в месяц для планирования. Какой грубая прикидка перевод `units` самый разумный?
- Каждое событие занимает примерно 1 `KB` в логах, а в день приходит 50 млн `events`. Какой `order of magnitude` для суточного объёма данных ближе всего, если сделать грубая прикидка оценку по `units`?
- У продукта 200 тыс `DAU`. Доля платящих пользователей около 2%, а средний платёж в день на платящего — 500 ₽. Какая грубая прикидка оценка дневной выручки по `units` наиболее адекватна по `order of magnitude`?
- ETL job обработал 120 млн строк за 2 часа. Какой грубая прикидка `throughput` в `rows per second` ближе всего?
- Все вопросы по «Sanity-check и оценка» →