Question 1

В отчёте `CTR` показан как 2.5. Команда утверждает, что это 2.5%. Какой `units` `sanity-check` самый правильный?

Accepted Answer

Для метрик-долей важно фиксировать `units`: доля в диапазоне 0..1 или проценты в диапазоне 0..100. Если `CTR` равен 2.5, это уже больше 1, значит в долях это невозможно и требуется интерпретация как проценты. Хороший грубая прикидка `constraints` чек: доля кликов не может превышать 1. Чтобы избежать ошибок, договоритесь об одном формате хранения и отображения и делайте явное преобразование `units` на границах системы. Это типичная ловушка, которая даёт `order of magnitude` сбои в отчётах.

Question 2

В дашборде метрика `conversion` определена как доля пользователей, совершивших хотя бы одну покупку за день. В отчёте вы видите 130%. Какой грубая прикидка `sanity-check` по `constraints` наиболее уместен?

Accepted Answer

Для доли пользователей существует `upper bound` 100%, поэтому значение выше 100% почти всегда указывает на ошибку в `units` или определении метрики. Быстрый грубая прикидка помогает сразу проверить `constraints` метрики: доля пользователей с событием не может превышать 100%. Если получилось 130%, часто перепутали `units`: в числителе посчитали события (покупки), а в знаменателе пользователей. Ещё типичный источник — дубли, неверные джойны или фильтры по времени. Сначала исправьте определение, потом интерпретируйте результат.

Question 3

Каждое событие занимает примерно 1 `KB` в логах, а в день приходит 50 млн `events`. Какой `order of magnitude` для суточного объёма данных ближе всего, если сделать грубая прикидка оценку по `units`?

Accepted Answer

При грубая прикидка оценке объёма умножайте количество объектов на размер одного объекта и проверяйте `order of magnitude`. 50 млн умножить на 1 `KB` даёт порядка 50 млн `KB`. Это примерно 50 тыс `MB`, то есть около 50 `GB`, если считать в десятичном приближении. Такой `order of magnitude` полезен, чтобы быстро поймать ошибки в планировании хранилища. Дальше можно уточнять средний размер события и долю сжатия как отдельные `assumptions`.

Question 4

ETL job обработал 120 млн строк за 2 часа. Какой грубая прикидка `throughput` в `rows per second` ближе всего?

Accepted Answer

Перевод времени в секунды и расчёт `throughput` помогают быстро проверить реалистичность скорости обработки. 2 часа — это 7200 секунд, поэтому 120 млн / 7200 ≈ 17 тыс строк в секунду по грубая прикидка. Такой `units` чек помогает поймать ошибки вроде перепутанных минут и секунд. Если получилось 1.7 млн строк в секунду, стоит пересчитать, не потеряли ли вы ноль или не перепутали `rows` и `batches`. В интервью важно уметь сделать такую оценку без точного калькулятора.

Question 5

Вы видите 300 млн `events` в день. Коллега заявил, что `DAU` равен 250 млн. Вы знаете, что у активного пользователя минимум 5 `events` в день. Какой `upper bound` `sanity-check` корректен?

Accepted Answer

Если известен минимум событий на пользователя, можно поставить `upper bound` на `DAU` через общее число `events`. При `constraints` минимум 5 `events` на активного пользователя общее число `events` ограничивает максимум пользователей. Поэтому `DAU` не может быть выше 60 млн при 300 млн `events`. Такой грубая прикидка чек быстро находит ошибки в расчёте уникальных пользователей или в фильтрах активности. Далее стоит проверить дедупликацию пользователей и определение активного дня.

Sanity-check и оценка: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Логика