Вам нужно прикинуть, сколько места займут новые events, но неизвестны точные units: сколько events per user в день и сколько bytes в одном событии. Какой подход к оценке наиболее правильный?
AНе оценивать, пока не появятся точные данные, иначе ответ будет неверным.
BВзять одно число наугад и считать его точным, чтобы быстрее принять решение.
CОпираться только на самый оптимистичный сценарий, потому что он приятнее для бизнеса.
DРазложить на
units и построить bounds через lower bound и upper bound по частоте и размеру, фиксируя assumptions и проверяя constraints.Правильный ответ. Когда данных не хватает, лучше строить
bounds через lower bound и upper bound и постепенно уточнять assumptions.Разбор
Начните с разложения на units: users per day × events per user × bytes per event. Затем задайте консервативные assumptions и получите lower bound и upper bound для итогового объёма. Такой грубая прикидка подход помогает принимать решения под неопределённость и быстро ловить несоответствия constraints. По мере появления данных вы сужаете bounds, не переписывая логику оценки.
Проверь себя · 1/3разбор после ответа
ETL job обработал 120 млн строк за 2 часа. Какой грубая прикидка
throughput в rows per second ближе всего?Ещё вопросы по теме «Sanity-check и оценка»
- В дашборде метрика `conversion` определена как доля пользователей, совершивших хотя бы одну покупку за день. В отчёте вы видите 130%. Какой грубая прикидка `sanity-check` по `constraints` наиболее уместен?
- У вас 2.5 млн `events` в день и нужно прикинуть объём `events` в месяц для планирования. Какой грубая прикидка перевод `units` самый разумный?
- Каждое событие занимает примерно 1 `KB` в логах, а в день приходит 50 млн `events`. Какой `order of magnitude` для суточного объёма данных ближе всего, если сделать грубая прикидка оценку по `units`?
- У продукта 200 тыс `DAU`. Доля платящих пользователей около 2%, а средний платёж в день на платящего — 500 ₽. Какая грубая прикидка оценка дневной выручки по `units` наиболее адекватна по `order of magnitude`?
- ETL job обработал 120 млн строк за 2 часа. Какой грубая прикидка `throughput` в `rows per second` ближе всего?
- Все вопросы по «Sanity-check и оценка» →