В каталоге всего 10 тыс sku. В отчёте за день показатель unique_sku_sold равен 12 тыс. Что говорит constraints sanity-check?

AЭто нормально: продажи могут быть выше размера каталога из-за возвратов.
BЭто означает, что каталог вырос в этот день, и метрика автоматически корректна.
CНужно умножить 12 тыс на средний чек, чтобы проверить units.
DНарушен upper bound: уникальных проданных sku не может быть больше размера каталога, значит вероятна ошибка джойна, фильтра или dedup.
Правильный ответ. Если результат превышает очевидный upper bound, сначала ищите ошибку в расчёте, а не объяснение в данных.

Разбор

При фиксированном каталоге максимум уникальных sku за день ограничен размером каталога. Значение выше этого upper bound обычно появляется из-за неверного units уровня уникальности (например, считаете sku_id вместе с store_id) или из-за дублей после джойна. грубая прикидка проверка constraints помогает быстро локализовать такие баги. После исправления стоит сверить ключи агрегации и логику dedup.

Проверь себя · 1/3разбор после ответа
Нужно сделать backfill 2 млрд строк в хранилище. Пайплайн стабильно обрабатывает 50 тыс строк в секунду. Какая грубая прикидка оценка времени ближе всего?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Sanity-check и оценка»