Question 1

Известно, что в продукте 5 млн `sessions` в день, но нет данных, сколько `events` в среднем приходится на одну `session`. Какой подход к грубая прикидка оценке числа `events` в день наиболее адекватен?

Accepted Answer

Когда данных нет, полезно строить диапазон через `lower bound` и `upper bound`, а не одну точку. В грубая прикидка оценке можно взять минимально возможное число событий на `session` как `lower bound` и реалистичный максимум как `upper bound`. Тогда вы получите диапазон, который легко сравнить с `constraints` системы и прошлым опытом. Такой подход лучше, чем придумывать одно точное число без оснований. Если позже появятся данные, вы сузите `bounds`.

Question 2

Коллега утверждает, что ежедневный объём выгрузки равен 5 `PB`. При этом вы знаете: 100 млн записей в день, средний размер записи около 200 `bytes`. Какой вывод `sanity-check` по `order of magnitude` наиболее верный?

Accepted Answer

Сравнение с `order of magnitude` быстро выявляет перепутанные `units` вроде `bytes` и `KB/MB/GB`. 100 млн × 200 `bytes` ≈ 20 млрд `bytes`, то есть порядка 20 `GB`, а не `PB`. Разница в сотни тысяч раз почти всегда означает ошибку в `units` или лишние множители. Такой грубая прикидка `sanity-check` полезен, чтобы не обсуждать инфраструктуру на неверных входных. После выявления расхождения стоит уточнить, что именно считается записью и где мог появиться неверный коэффициент.

Question 3

Система пишет 1 `TB` логов в день. По `assumptions` размер одного события между 200 и 500 `bytes`. Какой диапазон для количества `events` в день по `bounds` наиболее разумен?

Accepted Answer

Используйте `lower bound` и `upper bound` на размер объекта, чтобы получить `bounds` на количество объектов. Если логов 1 `TB` в день, то при 500 `bytes` на событие получится около 2 млрд событий, а при 200 `bytes` — около 5 млрд. Это грубая прикидка расчёт, но он даёт правильный `order of magnitude`. Такой диапазон помогает проверить, не ошиблись ли вы в `units` или в оценке размера события. Затем можно уточнять средний размер и сжатие.

Question 4

Вам нужно прикинуть, сколько места займут новые `events`, но неизвестны точные `units`: сколько `events per user` в день и сколько `bytes` в одном событии. Какой подход к оценке наиболее правильный?

Accepted Answer

Когда данных не хватает, лучше строить `bounds` через `lower bound` и `upper bound` и постепенно уточнять `assumptions`. Начните с разложения на `units`: `users per day × events per user × bytes per event`. Затем задайте консервативные `assumptions` и получите `lower bound` и `upper bound` для итогового объёма. Такой грубая прикидка подход помогает принимать решения под неопределённость и быстро ловить несоответствия `constraints`. По мере появления данных вы сужаете `bounds`, не переписывая логику оценки.

Question 5

У вас 1 млн `sessions` в день. Максимально реалистичный рост `conversion` от фичи вы оцениваете как +1 процентный пункт, а маржа с одной покупки 100 ₽. Какой `upper bound` для дополнительной маржи в день даст грубая прикидка оценка?

Accepted Answer

`upper bound` помогает быстро понять максимум эффекта по `constraints` даже до точного эксперимента. Если рост `conversion` ограничен +1 п.п., то дополнительная доля покупок не превышает 0.01 от `sessions`. Умножив на 1 млн `sessions` и 100 ₽ маржи, получаем около 1 млн ₽ в день как `upper bound`. Это полезный грубая прикидка ориентир для приоритизации: если стоимость разработки больше возможного выигрыша, фича сомнительна. Дальше можно уточнять `assumptions` про реальный трафик и маржинальность.

Sanity-check и оценка: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Логика