Распределения на собеседовании аналитика

Проверь себя · 1/3разбор после ответа
Для среднего времени ответа построен доверительный интервал от 120 мс до 160 мс. Чему равна предельная ошибка (margin of error)?

Какие распределения спрашивают на собеседовании

На собеседованиях аналитиков данных проверяют не умение выводить формулы, а понимание смысла каждого распределения. Интервьюер ожидает, что вы объясните, когда какое распределение применяется и почему. Три распределения встречаются чаще всего: нормальное, биномиальное и Пуассона.

Типичный формат вопроса: описывают бизнес-ситуацию и просят выбрать подходящее распределение или объяснить свойства конкретного.

Нормальное распределение

Нормальное распределение — основа классической статистики. На собеседовании важно знать три вещи.

Центральная предельная теорема (CLT): среднее значение выборки стремится к нормальному распределению при увеличении размера выборки, независимо от исходного распределения данных. Это объясняет, почему нормальное распределение так часто используется в A/B-тестировании — мы работаем со средними.

Правило трёх сигм: примерно 68% данных попадают в одно стандартное отклонение от среднего, 95% — в два, 99.7% — в три. Интервьюер может попросить оценить вероятность события, зная среднее и стандартное отклонение.

Параметры: нормальное распределение полностью определяется двумя числами — средним и стандартным отклонением. Это делает его удобным для моделирования и интерпретации.

На заметку: Если вас спросят, «нормально ли распределена выручка», правильный ответ — скорее всего нет. Выручка обычно имеет правый хвост (много маленьких покупок, мало крупных). Но средняя выручка за день по CLT будет приближаться к нормальному распределению.

Биномиальное распределение

Биномиальное распределение описывает количество успехов в серии независимых экспериментов с двумя исходами. Параметры — число попыток (n) и вероятность успеха (p).

Когда применяется: конверсия (купил / не купил), клик (кликнул / не кликнул), отток (ушёл / остался). Любая задача, где есть бинарный результат и фиксированное число наблюдений.

Частый вопрос на собеседовании: «Конверсия сайта — 5%, за день 200 посетителей. Какова вероятность, что купят ровно 15 человек?» Здесь n=200, p=0.05, и нужно применить биномиальное распределение.

Связь с нормальным: при большом n биномиальное распределение приближается к нормальному. Это используется при расчёте доверительных интервалов для конверсий.

Распределение Пуассона

Распределение Пуассона описывает количество событий за фиксированный интервал времени, если события происходят независимо и с постоянной средней скоростью.

Когда применяется: количество обращений в поддержку за час, число ошибок на сервере за минуту, количество заказов за день. Один параметр — лямбда (среднее число событий за интервал).

Ключевое свойство: в распределении Пуассона среднее равно дисперсии. Если интервьюер даёт задачу, где среднее сильно отличается от дисперсии, — это сигнал, что Пуассон не подходит.

Связь с биномиальным: Пуассон — предельный случай биномиального распределения при большом n и малом p. Например, число мошеннических транзакций из миллиона (n огромное, p крошечное).

Как отвечать на вопросы о распределениях

  1. Начните с контекста — объясните, какие данные описываете и почему выбрали конкретное распределение
  2. Назовите параметры — у нормального это среднее и стандартное отклонение, у биномиального — n и p, у Пуассона — лямбда
  3. Укажите ограничения — когда распределение не подходит (зависимые наблюдения, тяжёлые хвосты, непостоянная скорость)
  4. Свяжите с практикой — покажите, как распределение используется в задачах аналитика: A/B-тесты, оценка метрик, anomaly detection

Совет: Интервьюер часто проверяет не знание формул, а способность выбрать правильное распределение для задачи. Готовьтесь объяснять выбор на примерах из бизнеса, а не через математические выкладки.

FAQ

Какие распределения нужно знать junior-аналитику?

Для junior достаточно нормального и биномиального. Нормальное нужно для понимания CLT и проверки гипотез. Биномиальное — для задач на конверсию. Пуассона обычно спрашивают на middle+ уровне.

Зачем аналитику знать CLT?

Центральная предельная теорема объясняет, почему работают стандартные статистические тесты. Без CLT невозможно обосновать использование z-теста или t-теста для средних. На собеседовании CLT — один из самых частых вопросов по статистике.

Как распределения связаны с A/B-тестами?

Напрямую. В A/B-тестах мы сравниваем метрики двух групп. Для конверсий используется биномиальное распределение, для средних — нормальное (по CLT). Подробнее — в разделе A/B-тестирование. Смотрите также примеры вопросов и советы по подготовке.