Вам нужно прикинуть, сколько места займут новые события, но неизвестны точные значения: сколько событий на пользователя в день и сколько байт в одном событии. Какой подход к оценке наиболее правильный?

AВзять одно правдоподобное число для обеих величин и считать его точной оценкой, чтобы быстрее принять решение и не задерживать команду
BВзять оптимистичный сценарий по обеим величинам, чтобы заложить минимальный требуемый объём хранилища и не переплатить за резерв
CРазложить на единицы измерения и построить нижнюю и верхнюю границы по частоте и размеру событий, фиксируя допущения и ограничения
DВзять данные другого продукта со схожим профилем как точную оценку для частоты и размера событий и перенести числа на наш случай
Правильный ответ. Когда данных не хватает, лучше строить нижнюю и верхнюю границы и постепенно уточнять допущения по мере поступления фактов.

Разбор

Начните с разложения на единицы измерения: пользователи в день, события на пользователя, байт на событие. Затем задайте консервативные допущения и получите нижнюю и верхнюю границы для итогового объёма. Такая грубая прикидка помогает принимать решения под неопределённость и быстро ловить несоответствия с ограничениями. Варианты «не оценивать» и «брать одно число» игнорируют неопределённость, а «только оптимистичный сценарий» систематически занижает риски.

Проверь себя · 1/3разбор после ответа
ETL-задача обработала 120 млн строк за 2 часа. Какая грубая прикидка пропускной способности в строках в секунду ближе всего?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Sanity-check и оценка»