Коллега утверждает, что ежедневный объём выгрузки равен 5 PB. При этом вы знаете: 100 млн записей в день, средний размер записи около 200 bytes. Какой вывод sanity-check по order of magnitude наиболее верный?
A5
PB выглядит правдоподобно, потому что 100 млн — это очень много строк.BДолжно быть около 5
TB, просто в отчёте перепутали букву.CДолжно быть около 500
GB, потому что 200 bytes — это почти килобайт.DДолжно быть порядка 20
GB, а 5 PB — это явная ошибка в units и order of magnitude.Правильный ответ. Сравнение с
order of magnitude быстро выявляет перепутанные units вроде bytes и KB/MB/GB.Разбор
100 млн × 200 bytes ≈ 20 млрд bytes, то есть порядка 20 GB, а не PB. Разница в сотни тысяч раз почти всегда означает ошибку в units или лишние множители. Такой грубая прикидка sanity-check полезен, чтобы не обсуждать инфраструктуру на неверных входных. После выявления расхождения стоит уточнить, что именно считается записью и где мог появиться неверный коэффициент.
Проверь себя · 1/3разбор после ответа
У продукта 200 тыс
DAU. Доля платящих пользователей около 2%, а средний платёж в день на платящего — 500 ₽. Какая грубая прикидка оценка дневной выручки по units наиболее адекватна по order of magnitude?Ещё вопросы по теме «Sanity-check и оценка»
- В дашборде метрика `conversion` определена как доля пользователей, совершивших хотя бы одну покупку за день. В отчёте вы видите 130%. Какой грубая прикидка `sanity-check` по `constraints` наиболее уместен?
- У вас 2.5 млн `events` в день и нужно прикинуть объём `events` в месяц для планирования. Какой грубая прикидка перевод `units` самый разумный?
- Каждое событие занимает примерно 1 `KB` в логах, а в день приходит 50 млн `events`. Какой `order of magnitude` для суточного объёма данных ближе всего, если сделать грубая прикидка оценку по `units`?
- У продукта 200 тыс `DAU`. Доля платящих пользователей около 2%, а средний платёж в день на платящего — 500 ₽. Какая грубая прикидка оценка дневной выручки по `units` наиболее адекватна по `order of magnitude`?
- ETL job обработал 120 млн строк за 2 часа. Какой грубая прикидка `throughput` в `rows per second` ближе всего?
- Все вопросы по «Sanity-check и оценка» →