Распределения на собеседовании аналитика

Какие распределения спрашивают на собеседовании

На собеседованиях аналитиков данных проверяют не умение выводить формулы, а понимание смысла каждого распределения. Интервьюер ожидает, что вы объясните, когда какое распределение применяется и почему. Три распределения встречаются чаще всего: нормальное, биномиальное и Пуассона.

Типичный формат вопроса: описывают бизнес-ситуацию и просят выбрать подходящее распределение или объяснить свойства конкретного.

Нормальное распределение

Нормальное распределение — основа классической статистики. На собеседовании важно знать три вещи.

Центральная предельная теорема (CLT): среднее значение выборки стремится к нормальному распределению при увеличении размера выборки, независимо от исходного распределения данных. Это объясняет, почему нормальное распределение так часто используется в A/B-тестировании — мы работаем со средними.

Правило трёх сигм: примерно 68% данных попадают в одно стандартное отклонение от среднего, 95% — в два, 99.7% — в три. Интервьюер может попросить оценить вероятность события, зная среднее и стандартное отклонение.

Параметры: нормальное распределение полностью определяется двумя числами — средним и стандартным отклонением. Это делает его удобным для моделирования и интерпретации.

На заметку: Если вас спросят, «нормально ли распределена выручка», правильный ответ — скорее всего нет. Выручка обычно имеет правый хвост (много маленьких покупок, мало крупных). Но средняя выручка за день по CLT будет приближаться к нормальному распределению.

Биномиальное распределение

Биномиальное распределение описывает количество успехов в серии независимых экспериментов с двумя исходами. Параметры — число попыток (n) и вероятность успеха (p).

Когда применяется: конверсия (купил / не купил), клик (кликнул / не кликнул), отток (ушёл / остался). Любая задача, где есть бинарный результат и фиксированное число наблюдений.

Частый вопрос на собеседовании: «Конверсия сайта — 5%, за день 200 посетителей. Какова вероятность, что купят ровно 15 человек?» Здесь n=200, p=0.05, и нужно применить биномиальное распределение.

Связь с нормальным: при большом n биномиальное распределение приближается к нормальному. Это используется при расчёте доверительных интервалов для конверсий.

Распределение Пуассона

Распределение Пуассона описывает количество событий за фиксированный интервал времени, если события происходят независимо и с постоянной средней скоростью.

Когда применяется: количество обращений в поддержку за час, число ошибок на сервере за минуту, количество заказов за день. Один параметр — лямбда (среднее число событий за интервал).

Ключевое свойство: в распределении Пуассона среднее равно дисперсии. Если интервьюер даёт задачу, где среднее сильно отличается от дисперсии, — это сигнал, что Пуассон не подходит.

Связь с биномиальным: Пуассон — предельный случай биномиального распределения при большом n и малом p. Например, число мошеннических транзакций из миллиона (n огромное, p крошечное).

Как отвечать на вопросы о распределениях

  1. Начните с контекста — объясните, какие данные описываете и почему выбрали конкретное распределение
  2. Назовите параметры — у нормального это среднее и стандартное отклонение, у биномиального — n и p, у Пуассона — лямбда
  3. Укажите ограничения — когда распределение не подходит (зависимые наблюдения, тяжёлые хвосты, непостоянная скорость)
  4. Свяжите с практикой — покажите, как распределение используется в задачах аналитика: A/B-тесты, оценка метрик, anomaly detection

Совет: Интервьюер часто проверяет не знание формул, а способность выбрать правильное распределение для задачи. Готовьтесь объяснять выбор на примерах из бизнеса, а не через математические выкладки.

FAQ

Какие распределения нужно знать junior-аналитику?

Для junior достаточно нормального и биномиального. Нормальное нужно для понимания CLT и проверки гипотез. Биномиальное — для задач на конверсию. Пуассона обычно спрашивают на middle+ уровне.

Зачем аналитику знать CLT?

Центральная предельная теорема объясняет, почему работают стандартные статистические тесты. Без CLT невозможно обосновать использование z-теста или t-теста для средних. На собеседовании CLT — один из самых частых вопросов по статистике.

Как распределения связаны с A/B-тестами?

Напрямую. В A/B-тестах мы сравниваем метрики двух групп. Для конверсий используется биномиальное распределение, для средних — нормальное (по CLT). Подробнее — в разделе A/B-тестирование. Смотрите также примеры вопросов и советы по подготовке.