Вам нужно прикинуть, сколько места займут новые события, но неизвестны точные значения: сколько событий на пользователя в день и сколько байт в одном событии. Какой подход к оценке наиболее правильный?
AВзять одно правдоподобное число для обеих величин и считать его точной оценкой, чтобы быстрее принять решение и не задерживать команду
BВзять оптимистичный сценарий по обеим величинам, чтобы заложить минимальный требуемый объём хранилища и не переплатить за резерв
CРазложить на единицы измерения и построить нижнюю и верхнюю границы по частоте и размеру событий, фиксируя допущения и ограничения
DВзять данные другого продукта со схожим профилем как точную оценку для частоты и размера событий и перенести числа на наш случай
Правильный ответ. Когда данных не хватает, лучше строить нижнюю и верхнюю границы и постепенно уточнять допущения по мере поступления фактов.
Разбор
Начните с разложения на единицы измерения: пользователи в день, события на пользователя, байт на событие. Затем задайте консервативные допущения и получите нижнюю и верхнюю границы для итогового объёма. Такая грубая прикидка помогает принимать решения под неопределённость и быстро ловить несоответствия с ограничениями. Варианты «не оценивать» и «брать одно число» игнорируют неопределённость, а «только оптимистичный сценарий» систематически занижает риски.
Проверь себя · 1/3разбор после ответа
ETL-задача обработала 120 млн строк за 2 часа. Какая грубая прикидка пропускной способности в строках в секунду ближе всего?
Ещё вопросы по теме «Sanity-check и оценка»
- В дашборде метрика конверсии определена как доля пользователей, совершивших хотя бы одну покупку за день. В отчёте вы видите 130%. Какая грубая прикидка по ограничениям метрики наиболее уместна?
- У вас 2.5 млн событий в день и нужно прикинуть объём событий в месяц для планирования. Какой подход к грубой оценке наиболее разумный?
- Каждое событие занимает примерно 1 КБ в логах, а в день приходит 50 млн событий. Какой порядок величины суточного объёма данных ближе всего при грубой прикидке по единицам измерения?
- У продукта 200 тыс DAU. Доля платящих пользователей около 2%, а средний платёж в день на платящего — 500 ₽. Какая грубая оценка дневной выручки наиболее адекватна по порядку величины?
- ETL-задача обработала 120 млн строк за 2 часа. Какая грубая прикидка пропускной способности в строках в секунду ближе всего?
- Все вопросы по «Sanity-check и оценка» →