Распределение Бернулли простыми словами

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Зачем это знать

Распределение Бернулли — самое простое в статистике, но именно его структура лежит за всем: A/B-тесты, classification, churn, conversion. Любая бинарная метрика (купил/не купил, кликнул/не кликнул) — это Бернулли.

На собесах middle+ часто спрашивают про биномиальное распределение. А биномиальное — это сумма N независимых Bernoulli. Без Бернулли нет биномиального, без биномиального — нет A/B-теста.

Короткое объяснение

Бернулли — одна проба с двумя исходами: «успех» (1) с вероятностью p или «провал» (0) с вероятностью 1-p.

Пример: один flip монеты. Орёл = 1 (p = 0.5), решка = 0 (1-p = 0.5).

Формула

P(X = 1) = p
P(X = 0) = 1 - p

Характеристики

  • Среднее (mean): p
  • Дисперсия (variance): p × (1 - p)
  • Стандартное отклонение: √(p × (1 - p))

Пример в аналитике

Конверсия сайта = 10%. Каждый пользователь либо купил (p = 0.1), либо нет (0.9).

Это Бернулли с p = 0.1.

Variance = 0.1 × 0.9 = 0.09. Std = 0.3.

Связь с биномиальным

Если N пользователей приходят независимо, и каждый — Bernoulli(p), то общее число покупок — биномиальное B(N, p):

Покупки = X1 + X2 + ... + XN
где Xi ~ Bernoulli(p)

Mean = N × p. Variance = N × p × (1-p).

Пример расчёта

10 пользователей, каждый конвертится с вероятностью 0.2. Сколько ожидаемых покупок?

E[X] = 10 × 0.2 = 2 покупки.

В A/B-тестах

Conversion rate — это эмпирическая оценка p в Bernoulli.

p̂ = число конвертировавшихся / N

Standard error для разницы пропорций:

SE = √(p̂_1 × (1 - p̂_1) / N_1 + p̂_2 × (1 - p̂_2) / N_2)

Основано на variance Bernoulli.

В ML

Binary classification — предсказываем Bernoulli: вероятность класса 1.

Log-loss — это negative log-likelihood для Bernoulli.

В Python

from scipy.stats import bernoulli
import numpy as np

# Симуляция 1000 flip с p = 0.3
samples = bernoulli.rvs(p=0.3, size=1000)
print(samples.mean())  # ~0.3
print(samples.var())   # ~0.21 = 0.3 * 0.7

На собесе

«Что такое Bernoulli?» Одна бинарная проба с вероятностью успеха p.

«Variance Bernoulli?» p × (1-p). Максимум при p = 0.5.

«Связь с биномиальным?» Сумма N независимых Bernoulli(p) = B(N, p).

«Где встречается?» Любая бинарная метрика: клик, покупка, ответ «да/нет».

Частые ошибки

Путать с биномиальным

Bernoulli — одна проба. Binomial — сколько успехов в N пробах.

Variance = p × q

Не p^2 и не p. Многие путают.

Максимум неопределённости

Max variance при p = 0.5 (variance = 0.25). При p → 0 или 1 variance → 0.

Связанные темы

FAQ

Пример Bernoulli в жизни?

Бросок монеты, конверсия, клик по баннеру, да/нет ответ в опросе.

Bernoulli ≠ binomial?

Bernoulli — одна проба. Binomial — сумма N Bernoulli.

Зачем это аналитику?

Любая бинарная метрика — Bernoulli. Основа A/B-тестов и classification.


Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.