Распределения на собеседовании аналитика
Какие распределения спрашивают на собеседовании
На собеседованиях аналитиков данных проверяют не умение выводить формулы, а понимание смысла каждого распределения. Интервьюер ожидает, что вы объясните, когда какое распределение применяется и почему. Три распределения встречаются чаще всего: нормальное, биномиальное и Пуассона.
Типичный формат вопроса: описывают бизнес-ситуацию и просят выбрать подходящее распределение или объяснить свойства конкретного.
Нормальное распределение
Нормальное распределение — основа классической статистики. На собеседовании важно знать три вещи.
Центральная предельная теорема (CLT): среднее значение выборки стремится к нормальному распределению при увеличении размера выборки, независимо от исходного распределения данных. Это объясняет, почему нормальное распределение так часто используется в A/B-тестировании — мы работаем со средними.
Правило трёх сигм: примерно 68% данных попадают в одно стандартное отклонение от среднего, 95% — в два, 99.7% — в три. Интервьюер может попросить оценить вероятность события, зная среднее и стандартное отклонение.
Параметры: нормальное распределение полностью определяется двумя числами — средним и стандартным отклонением. Это делает его удобным для моделирования и интерпретации.
На заметку: Если вас спросят, «нормально ли распределена выручка», правильный ответ — скорее всего нет. Выручка обычно имеет правый хвост (много маленьких покупок, мало крупных). Но средняя выручка за день по CLT будет приближаться к нормальному распределению.
Биномиальное распределение
Биномиальное распределение описывает количество успехов в серии независимых экспериментов с двумя исходами. Параметры — число попыток (n) и вероятность успеха (p).
Когда применяется: конверсия (купил / не купил), клик (кликнул / не кликнул), отток (ушёл / остался). Любая задача, где есть бинарный результат и фиксированное число наблюдений.
Частый вопрос на собеседовании: «Конверсия сайта — 5%, за день 200 посетителей. Какова вероятность, что купят ровно 15 человек?» Здесь n=200, p=0.05, и нужно применить биномиальное распределение.
Связь с нормальным: при большом n биномиальное распределение приближается к нормальному. Это используется при расчёте доверительных интервалов для конверсий.
Распределение Пуассона
Распределение Пуассона описывает количество событий за фиксированный интервал времени, если события происходят независимо и с постоянной средней скоростью.
Когда применяется: количество обращений в поддержку за час, число ошибок на сервере за минуту, количество заказов за день. Один параметр — лямбда (среднее число событий за интервал).
Ключевое свойство: в распределении Пуассона среднее равно дисперсии. Если интервьюер даёт задачу, где среднее сильно отличается от дисперсии, — это сигнал, что Пуассон не подходит.
Связь с биномиальным: Пуассон — предельный случай биномиального распределения при большом n и малом p. Например, число мошеннических транзакций из миллиона (n огромное, p крошечное).
Как отвечать на вопросы о распределениях
- Начните с контекста — объясните, какие данные описываете и почему выбрали конкретное распределение
- Назовите параметры — у нормального это среднее и стандартное отклонение, у биномиального — n и p, у Пуассона — лямбда
- Укажите ограничения — когда распределение не подходит (зависимые наблюдения, тяжёлые хвосты, непостоянная скорость)
- Свяжите с практикой — покажите, как распределение используется в задачах аналитика: A/B-тесты, оценка метрик, anomaly detection
Совет: Интервьюер часто проверяет не знание формул, а способность выбрать правильное распределение для задачи. Готовьтесь объяснять выбор на примерах из бизнеса, а не через математические выкладки.
FAQ
Какие распределения нужно знать junior-аналитику?
Для junior достаточно нормального и биномиального. Нормальное нужно для понимания CLT и проверки гипотез. Биномиальное — для задач на конверсию. Пуассона обычно спрашивают на middle+ уровне.
Зачем аналитику знать CLT?
Центральная предельная теорема объясняет, почему работают стандартные статистические тесты. Без CLT невозможно обосновать использование z-теста или t-теста для средних. На собеседовании CLT — один из самых частых вопросов по статистике.
Как распределения связаны с A/B-тестами?
Напрямую. В A/B-тестах мы сравниваем метрики двух групп. Для конверсий используется биномиальное распределение, для средних — нормальное (по CLT). Подробнее — в разделе A/B-тестирование. Смотрите также примеры вопросов и советы по подготовке.