Распределение Пуассона простыми словами

Что это такое

Распределение Пуассона — дискретное распределение вероятностей, которое моделирует количество событий за фиксированный интервал времени (или пространства). Классический пример: сколько обращений в поддержку поступит за час, сколько покупок произойдёт за день, сколько ошибок случится за сессию.

Распределение определяется одним параметром — λ (лямбда), средним числом событий за интервал. Если λ = 3, в среднем за период происходит 3 события, но в конкретный период может быть 0, 1, 5 или даже 8.

Формула вероятности ровно k событий:

P(X = k) = (λ^k * e^(-λ)) / k!

где e ≈ 2.718 — число Эйлера, k! — факториал k.

Свойства

Главное свойство Пуассона — математическое ожидание и дисперсия равны λ. Это одновременно удобно и диагностически полезно: если дисперсия данных заметно превышает среднее, Пуассон, скорее всего, не подходит.

Аддитивность. Если X ~ Poisson(λ₁) и Y ~ Poisson(λ₂) — независимые, то X + Y ~ Poisson(λ₁ + λ₂). За час приходит в среднем 5 тикетов — значит за 3 часа количество тикетов ~ Poisson(15).

Связь с биномиальным. Пуассон — предельный случай биномиального распределения при большом n и малом p, когда произведение np = λ остаётся конечным. Именно поэтому Пуассон описывает редкие события: каждый пользователь с маленькой вероятностью совершит покупку, но пользователей много — и общее число покупок подчиняется Пуассону.

Дискретность. X принимает значения 0, 1, 2, 3, … — только целые неотрицательные числа. Нельзя получить «2.5 ошибки за сессию».

Когда применять

Распределение Пуассона подходит, если выполняются три условия:

  1. События независимы. Одно обращение в поддержку не провоцирует другое.
  2. Средняя интенсивность постоянна. Количество заказов в час не скачет в течение дня (или вы рассматриваете период с постоянной интенсивностью).
  3. События редки относительно числа возможностей. Каждый конкретный пользователь вряд ли совершит покупку именно в этот час — но пользователей тысячи, и суммарное число покупок считаемо.

Примеры из аналитики:

  • Количество багов на релиз
  • Число push-уведомлений, по которым перешли за день
  • Количество возвратов за неделю
  • Число серверных ошибок 500 за час

Когда Пуассон не подходит

Overdispersion (сверхдисперсия). Если дисперсия данных значительно больше среднего — это сигнал, что Пуассон не описывает данные. Типичная причина: неоднородность в данных. Покупки за день по всем пользователям — кто-то покупает часто, кто-то редко. Дисперсия растёт. В таких случаях лучше подходит отрицательное биномиальное распределение.

Кластеризация событий. Если события приходят пачками (например, всплеск обращений после бага), условие независимости нарушается.

Непостоянная интенсивность. Заказы в интернет-магазине: утром мало, вечером — пик. Общее число за сутки плохо ложится на Пуассон. Можно разбить на однородные интервалы или использовать неоднородный процесс Пуассона.

Связь с экспоненциальным распределением

Пуассон и экспоненциальное распределение — две стороны одного процесса.

  • Пуассон отвечает на вопрос: сколько событий произойдёт за период?
  • Экспоненциальное отвечает на вопрос: сколько времени пройдёт до следующего события?

Если число событий за единицу времени ~ Poisson(λ), то время между соседними событиями ~ Exp(λ) со средним 1/λ. Служба поддержки получает в среднем 4 тикета в час (λ = 4) — среднее время между тикетами составляет 1/4 часа = 15 минут.

Это часто спрашивают на собеседованиях: кандидату дают λ для Пуассона и просят найти среднее время ожидания.

Python: scipy.stats.poisson

from scipy import stats

# λ = 3 — в среднем 3 события за период
poisson = stats.poisson(mu=3)

# Вероятность ровно 5 событий
print(poisson.pmf(5))    # 0.1008

# Вероятность не более 2 событий: P(X <= 2)
print(poisson.cdf(2))    # 0.4232

# Вероятность более 5 событий: P(X > 5)
print(1 - poisson.cdf(5))  # 0.0839

# Квантиль: минимальное k, при котором P(X <= k) >= 0.95
print(poisson.ppf(0.95))   # 6.0

# Генерация случайных значений
samples = poisson.rvs(size=10000)
print(f"Среднее: {samples.mean():.2f}, Дисперсия: {samples.var():.2f}")
# Среднее ≈ 3.00, Дисперсия ≈ 3.00 — совпадают, как и должно быть

Обратите внимание: для дискретных распределений вместо pdf используется pmf (probability mass function).

Вопросы с собеседований

На собеседованиях по статистике распределение Пуассона часто встречается в связке с экспоненциальным распределением и в задачах на моделирование подсчётных данных.

«Что моделирует распределение Пуассона?»

Количество независимых событий, происходящих с постоянной интенсивностью за фиксированный интервал. Параметр λ — среднее число событий за этот интервал. Примеры: число кликов по баннеру за день, количество дефектов в партии, число входящих звонков за час.

«Чему равны математическое ожидание и дисперсия распределения Пуассона?»

Оба равны λ. Это ключевое свойство: E(X) = Var(X) = λ. Если в данных дисперсия существенно больше среднего — данные, скорее всего, не подчиняются Пуассону (overdispersion).

«Как связаны распределение Пуассона и экспоненциальное?»

Если число событий за единицу времени распределено по Пуассону с параметром λ, то время между последовательными событиями распределено экспоненциально с параметром λ (среднее время = 1/λ). Это два взгляда на один пуассоновский процесс: Пуассон считает события, экспоненциальное — паузы между ними.

«Приведите пример, когда Пуассон не подходит для подсчётных данных.»

Количество покупок пользователей за месяц: часть пользователей покупает часто, часть — редко. Дисперсия значительно превышает среднее (overdispersion). Лучше подойдёт отрицательное биномиальное распределение. Другой пример — события, приходящие кластерами (DDoS-атаки, вирусные всплески трафика).

«В поддержку приходит в среднем 6 тикетов в час. Какова вероятность, что за час придёт ровно 10?»

X ~ Poisson(6). P(X = 10) = (6¹⁰ · e⁻⁶) / 10! ≈ 0.0413, около 4.1%. В Python: stats.poisson(mu=6).pmf(10).


Потренируйтесь решать задачи по статистике и теории вероятностей — откройте тренажёр.

FAQ

Что такое распределение Пуассона простыми словами?

Распределение Пуассона показывает, с какой вероятностью за фиксированный период произойдёт ровно 0, 1, 2, 3 или больше событий, если известна средняя интенсивность. Например, если в среднем приходит 5 писем в час, Пуассон скажет, как часто будет приходить 0, 3 или 10 писем.

Почему математическое ожидание и дисперсия Пуассона равны?

Это следствие формулы распределения. Свойство E(X) = Var(X) = λ — визитная карточка Пуассона. На практике это используют как быстрый тест: если дисперсия данных близка к среднему — модель Пуассона может быть уместна.

Чем распределение Пуассона отличается от нормального?

Пуассон — дискретное (только целые неотрицательные значения), несимметричное при малых λ, определяется одним параметром. Нормальное — непрерывное, симметричное, определяется двумя параметрами (μ и σ). При больших λ (обычно λ > 20) Пуассон хорошо аппроксимируется нормальным N(λ, λ).

Как проверить, подходит ли Пуассон для моих данных?

Сравните среднее и дисперсию: если они примерно равны — это хороший знак. Постройте гистограмму и наложите теоретическое распределение Пуассона. Формально можно использовать критерий хи-квадрат. Если дисперсия сильно больше среднего, рассмотрите отрицательное биномиальное распределение.