В каталоге всего 10 тыс товаров. В отчёте за день показатель уникальных проданных позиций равен 12 тыс. Что говорит проверка ограничений на адекватность?
AЭто нормально: продажи могут быть выше размера каталога из-за возвратов и повторных оформлений за один и тот же день одной и той же позицией
BЭто означает, что каталог вырос в этот день за счёт новых поступлений, и метрика автоматически корректна без дополнительной проверки и сверки
CНужно умножить 12 тыс на средний чек, чтобы перевести количество в выручку и проверить, попадает ли результат в ожидаемый диапазон по выручке
DНарушена верхняя граница: уникальных проданных позиций не может быть больше размера каталога, значит вероятна ошибка джойна, фильтра или дедупликации
Правильный ответ. Если результат превышает очевидную верхнюю границу, сначала ищите ошибку в расчёте, а не объяснение в данных по бизнесу.
Разбор
При фиксированном каталоге максимум уникальных позиций за день ограничен размером каталога. Значение выше этой верхней границы обычно появляется из-за неверного уровня уникальности (например, считаете sku_id вместе с store_id) или из-за дублей после джойна. Грубая проверка ограничений помогает быстро локализовать такие баги. После исправления стоит сверить ключи агрегации и логику дедупликации.
Проверь себя · 1/3разбор после ответа
Система пишет 1
TB логов в день. По предположениям, размер одного события — от 200 до 500 байт. Какой диапазон количества событий в день наиболее разумен по порядку величины?Ещё вопросы по теме «Sanity-check и оценка»
- В дашборде метрика конверсии определена как доля пользователей, совершивших хотя бы одну покупку за день. В отчёте вы видите 130%. Какая грубая прикидка по ограничениям метрики наиболее уместна?
- У вас 2.5 млн событий в день и нужно прикинуть объём событий в месяц для планирования. Какой подход к грубой оценке наиболее разумный?
- Каждое событие занимает примерно 1 КБ в логах, а в день приходит 50 млн событий. Какой порядок величины суточного объёма данных ближе всего при грубой прикидке по единицам измерения?
- У продукта 200 тыс DAU. Доля платящих пользователей около 2%, а средний платёж в день на платящего — 500 ₽. Какая грубая оценка дневной выручки наиболее адекватна по порядку величины?
- ETL-задача обработала 120 млн строк за 2 часа. Какая грубая прикидка пропускной способности в строках в секунду ближе всего?
- Все вопросы по «Sanity-check и оценка» →