Распределение Пуассона простыми словами
Что это такое
Распределение Пуассона — дискретное распределение вероятностей, которое моделирует количество событий за фиксированный интервал времени (или пространства). Классический пример: сколько обращений в поддержку поступит за час, сколько покупок произойдёт за день, сколько ошибок случится за сессию.
Распределение определяется одним параметром — λ (лямбда), средним числом событий за интервал. Если λ = 3, в среднем за период происходит 3 события, но в конкретный период может быть 0, 1, 5 или даже 8.
Формула вероятности ровно k событий:
P(X = k) = (λ^k * e^(-λ)) / k!где e ≈ 2.718 — число Эйлера, k! — факториал k.
Свойства
Главное свойство Пуассона — математическое ожидание и дисперсия равны λ. Это одновременно удобно и диагностически полезно: если дисперсия данных заметно превышает среднее, Пуассон, скорее всего, не подходит.
Аддитивность. Если X ~ Poisson(λ₁) и Y ~ Poisson(λ₂) — независимые, то X + Y ~ Poisson(λ₁ + λ₂). За час приходит в среднем 5 тикетов — значит за 3 часа количество тикетов ~ Poisson(15).
Связь с биномиальным. Пуассон — предельный случай биномиального распределения при большом n и малом p, когда произведение np = λ остаётся конечным. Именно поэтому Пуассон описывает редкие события: каждый пользователь с маленькой вероятностью совершит покупку, но пользователей много — и общее число покупок подчиняется Пуассону.
Дискретность. X принимает значения 0, 1, 2, 3, … — только целые неотрицательные числа. Нельзя получить «2.5 ошибки за сессию».
Когда применять
Распределение Пуассона подходит, если выполняются три условия:
- События независимы. Одно обращение в поддержку не провоцирует другое.
- Средняя интенсивность постоянна. Количество заказов в час не скачет в течение дня (или вы рассматриваете период с постоянной интенсивностью).
- События редки относительно числа возможностей. Каждый конкретный пользователь вряд ли совершит покупку именно в этот час — но пользователей тысячи, и суммарное число покупок считаемо.
Примеры из аналитики:
- Количество багов на релиз
- Число push-уведомлений, по которым перешли за день
- Количество возвратов за неделю
- Число серверных ошибок 500 за час
Когда Пуассон не подходит
Overdispersion (сверхдисперсия). Если дисперсия данных значительно больше среднего — это сигнал, что Пуассон не описывает данные. Типичная причина: неоднородность в данных. Покупки за день по всем пользователям — кто-то покупает часто, кто-то редко. Дисперсия растёт. В таких случаях лучше подходит отрицательное биномиальное распределение.
Кластеризация событий. Если события приходят пачками (например, всплеск обращений после бага), условие независимости нарушается.
Непостоянная интенсивность. Заказы в интернет-магазине: утром мало, вечером — пик. Общее число за сутки плохо ложится на Пуассон. Можно разбить на однородные интервалы или использовать неоднородный процесс Пуассона.
Связь с экспоненциальным распределением
Пуассон и экспоненциальное распределение — две стороны одного процесса.
- Пуассон отвечает на вопрос: сколько событий произойдёт за период?
- Экспоненциальное отвечает на вопрос: сколько времени пройдёт до следующего события?
Если число событий за единицу времени ~ Poisson(λ), то время между соседними событиями ~ Exp(λ) со средним 1/λ. Служба поддержки получает в среднем 4 тикета в час (λ = 4) — среднее время между тикетами составляет 1/4 часа = 15 минут.
Это часто спрашивают на собеседованиях: кандидату дают λ для Пуассона и просят найти среднее время ожидания.
Python: scipy.stats.poisson
from scipy import stats
# λ = 3 — в среднем 3 события за период
poisson = stats.poisson(mu=3)
# Вероятность ровно 5 событий
print(poisson.pmf(5)) # 0.1008
# Вероятность не более 2 событий: P(X <= 2)
print(poisson.cdf(2)) # 0.4232
# Вероятность более 5 событий: P(X > 5)
print(1 - poisson.cdf(5)) # 0.0839
# Квантиль: минимальное k, при котором P(X <= k) >= 0.95
print(poisson.ppf(0.95)) # 6.0
# Генерация случайных значений
samples = poisson.rvs(size=10000)
print(f"Среднее: {samples.mean():.2f}, Дисперсия: {samples.var():.2f}")
# Среднее ≈ 3.00, Дисперсия ≈ 3.00 — совпадают, как и должно бытьОбратите внимание: для дискретных распределений вместо pdf используется pmf (probability mass function).
Вопросы с собеседований
На собеседованиях по статистике распределение Пуассона часто встречается в связке с экспоненциальным распределением и в задачах на моделирование подсчётных данных.
«Что моделирует распределение Пуассона?»
Количество независимых событий, происходящих с постоянной интенсивностью за фиксированный интервал. Параметр λ — среднее число событий за этот интервал. Примеры: число кликов по баннеру за день, количество дефектов в партии, число входящих звонков за час.
«Чему равны математическое ожидание и дисперсия распределения Пуассона?»
Оба равны λ. Это ключевое свойство: E(X) = Var(X) = λ. Если в данных дисперсия существенно больше среднего — данные, скорее всего, не подчиняются Пуассону (overdispersion).
«Как связаны распределение Пуассона и экспоненциальное?»
Если число событий за единицу времени распределено по Пуассону с параметром λ, то время между последовательными событиями распределено экспоненциально с параметром λ (среднее время = 1/λ). Это два взгляда на один пуассоновский процесс: Пуассон считает события, экспоненциальное — паузы между ними.
«Приведите пример, когда Пуассон не подходит для подсчётных данных.»
Количество покупок пользователей за месяц: часть пользователей покупает часто, часть — редко. Дисперсия значительно превышает среднее (overdispersion). Лучше подойдёт отрицательное биномиальное распределение. Другой пример — события, приходящие кластерами (DDoS-атаки, вирусные всплески трафика).
«В поддержку приходит в среднем 6 тикетов в час. Какова вероятность, что за час придёт ровно 10?»
X ~ Poisson(6). P(X = 10) = (6¹⁰ · e⁻⁶) / 10! ≈ 0.0413, около 4.1%. В Python: stats.poisson(mu=6).pmf(10).
Потренируйтесь решать задачи по статистике и теории вероятностей — откройте тренажёр.
FAQ
Что такое распределение Пуассона простыми словами?
Распределение Пуассона показывает, с какой вероятностью за фиксированный период произойдёт ровно 0, 1, 2, 3 или больше событий, если известна средняя интенсивность. Например, если в среднем приходит 5 писем в час, Пуассон скажет, как часто будет приходить 0, 3 или 10 писем.
Почему математическое ожидание и дисперсия Пуассона равны?
Это следствие формулы распределения. Свойство E(X) = Var(X) = λ — визитная карточка Пуассона. На практике это используют как быстрый тест: если дисперсия данных близка к среднему — модель Пуассона может быть уместна.
Чем распределение Пуассона отличается от нормального?
Пуассон — дискретное (только целые неотрицательные значения), несимметричное при малых λ, определяется одним параметром. Нормальное — непрерывное, симметричное, определяется двумя параметрами (μ и σ). При больших λ (обычно λ > 20) Пуассон хорошо аппроксимируется нормальным N(λ, λ).
Как проверить, подходит ли Пуассон для моих данных?
Сравните среднее и дисперсию: если они примерно равны — это хороший знак. Постройте гистограмму и наложите теоретическое распределение Пуассона. Формально можно использовать критерий хи-квадрат. Если дисперсия сильно больше среднего, рассмотрите отрицательное биномиальное распределение.