Центральная предельная теорема простыми словами
Что утверждает центральная предельная теорема
Центральная предельная теорема (ЦПТ) утверждает: среднее арифметическое большого числа независимых одинаково распределённых случайных величин имеет распределение, близкое к нормальному, — независимо от того, как распределена каждая отдельная величина.
Это фундаментальный результат теории вероятностей. Именно благодаря ЦПТ нормальное распределение встречается повсюду — от роста людей до среднего чека в e-commerce.
Почему аналитику без этого никуда
Если вы работаете с данными, ЦПТ лежит в основе почти всего, что вы делаете:
- Доверительные интервалы строятся на предположении, что выборочное среднее распределено нормально. Это предположение работает именно благодаря ЦПТ.
- Проверка гипотез — z-тест и t-тест опираются на нормальность среднего, а не на нормальность исходных данных.
- A/B тесты — когда вы сравниваете конверсии или средний чек между группами, вы неявно используете ЦПТ каждый раз.
Без ЦПТ пришлось бы для каждой метрики доказывать нормальность исходного распределения, что в реальных данных невозможно.
Пример с кубиком: от равномерного к нормальному
Разберём на конкретных числах, как ЦПТ превращает любое распределение в нормальное.
Один бросок кубика
Результат одного броска — равномерное распределение на {1, 2, 3, 4, 5, 6}. Каждое значение выпадает с вероятностью 1/6. Среднее = 3.5, дисперсия = 2.917.
Гистограмма — плоская: шесть столбиков одинаковой высоты. Ничего похожего на колокол.
Среднее двух кубиков
Бросьте два кубика и посчитайте среднее. Возможные значения: от 1.0 до 6.0 с шагом 0.5. Но вероятности уже неравномерны:
- Среднее 1.0 (оба кубика = 1): вероятность 1/36 = 2.8%
- Среднее 3.5 (сумма = 7): вероятность 6/36 = 16.7%
- Среднее 6.0 (оба кубика = 6): вероятность 1/36 = 2.8%
Гистограмма — треугольная, с пиком на 3.5. Уже видна тенденция к симметрии.
Среднее 30 кубиков
Бросьте 30 кубиков. Среднее каждой серии из 30 бросков — величина с параметрами:
- Математическое ожидание: 3.5 (не меняется)
- Стандартное отклонение: sqrt(2.917 / 30) = 0.312
По ЦПТ, распределение этого среднего уже практически неотличимо от нормального N(3.5, 0.312). Гистограмма — классический колокол. Значения почти никогда не выходят за пределы 3.5 +/- 0.9.
Исходное распределение было плоским. Но среднее 30 наблюдений — гауссово. Это и есть ЦПТ в действии.
Формальные условия
ЦПТ работает не всегда. Три ключевых условия:
1. Независимость. Наблюдения не должны влиять друг на друга. Если сегодняшняя выручка зависит от вчерашней (временной ряд с автокорреляцией), классическая ЦПТ неприменима напрямую.
2. Конечная дисперсия. У распределения каждого наблюдения должна существовать конечная дисперсия. Для большинства метрик в аналитике (конверсия, время на сайте, чек) это выполняется.
3. Достаточный размер выборки. Правило большого пальца: n >= 30 — минимум, при котором ЦПТ начинает давать разумное приближение. Но это грубая оценка:
- Для симметричных распределений (например, равномерное) хватает n = 10-15.
- Для сильно скошенных (например, доходы пользователей, время сессии) может потребоваться n = 100 и больше.
- Для бернуллиевских данных (конверсия) правило np >= 5 и n(1-p) >= 5.
Когда ЦПТ ломается
Есть ситуации, в которых полагаться на ЦПТ опасно:
Тяжёлые хвосты
Распределения с бесконечной дисперсией (например, распределение Коши или Парето с альфа <= 2) не подчиняются ЦПТ. Среднее таких величин не сходится к нормальному — даже при миллионах наблюдений.
На практике это встречается в финансовых данных (доходности акций) и в метриках с экстремальными выбросами (суммы покупок, где 1% пользователей генерирует 90% выручки).
Зависимые данные
Если наблюдения коррелированы (данные одного пользователя во времени, пользователи в одном кластере), стандартная ЦПТ занижает дисперсию среднего. Доверительные интервалы получаются слишком узкими, а p-value — слишком маленькими.
Решение: кластерные стандартные ошибки, бутстрап или специальные версии ЦПТ для зависимых данных.
Маленькая выборка
При n = 5-10 приближение часто неточное, особенно для скошенных распределений. В этом случае лучше использовать t-распределение (для средних) или непараметрические методы.
Симуляция на Python
Лучший способ убедиться в ЦПТ — увидеть её в действии. Возьмём экспоненциальное распределение (сильно скошенное, lambda = 1) и посмотрим, как выборочное среднее становится нормальным.
import numpy as np
import matplotlib.pyplot as plt
rng = np.random.default_rng(42)
population = rng.exponential(scale=1.0, size=1_000_000)
sample_sizes = [1, 5, 30, 100]
fig, axes = plt.subplots(1, 4, figsize=(16, 4))
for ax, n in zip(axes, sample_sizes):
means = [
rng.choice(population, size=n, replace=False).mean()
for _ in range(10_000)
]
ax.hist(means, bins=50, density=True, alpha=0.7, color="#556B2F")
ax.set_title(f"n = {n}")
ax.set_xlim(0, 3)
fig.suptitle("ЦПТ: экспоненциальное распределение -> нормальное среднее")
plt.tight_layout()
plt.savefig("clt_simulation.png", dpi=150)
plt.show()При n = 1 гистограмма — экспоненциальная кривая (резкий пик слева, длинный хвост справа). При n = 5 — уже заметна симметрия. При n = 30 — почти идеальный колокол. При n = 100 — колокол сужается, стандартное отклонение среднего падает в 10 раз по сравнению с исходным.
Стандартное отклонение среднего = sigma / sqrt(n). Для экспоненциального с lambda = 1 (sigma = 1):
| n | Ст. откл. среднего | 95% значений лежат в |
|---|---|---|
| 1 | 1.000 | 0.03–3.69 |
| 5 | 0.447 | 0.33–2.04 |
| 30 | 0.183 | 0.64–1.36 |
| 100 | 0.100 | 0.80–1.20 |
Связь с A/B тестами и доверительными интервалами
Когда вы проводите A/B тест, вы сравниваете выборочные средние двух групп. ЦПТ гарантирует, что каждое из этих средних распределено приблизительно нормально (при достаточном n). Из этого следует:
- Разность средних тоже распределена нормально (сумма нормальных — нормальна).
- Можно вычислить z-статистику = (среднее_A - среднее_B) / SE и сравнить с порогом.
- Доверительный интервал для разности строится как разность +/- z * SE.
Без ЦПТ ни один из этих шагов не имел бы теоретического обоснования. Вам пришлось бы использовать перестановочные тесты или бутстрап для каждой метрики — что вычислительно дороже и сложнее в продакшене.
Важный нюанс: ЦПТ говорит о распределении среднего, а не о распределении самих данных. Данные могут быть как угодно скошены. Если в группе достаточно наблюдений, среднее будет нормальным.
Вопросы с собеседований
На собеседованиях по статистике ЦПТ спрашивают регулярно. Вот типичные формулировки и ожидаемые ответы:
«Что утверждает центральная предельная теорема?»
Среднее арифметическое n независимых одинаково распределённых случайных величин с конечной дисперсией при n -> бесконечности сходится по распределению к нормальному. Среднее этого нормального равно математическому ожиданию исходной величины, дисперсия — sigma^2 / n.
«При каком n начинает работать ЦПТ?»
Зависит от формы исходного распределения. Правило большого пальца — n >= 30 для умеренно скошенных распределений. Для симметричных хватает 10-15. Для сильно скошенных (например, доходы, суммы покупок) может потребоваться 100+. Для бинарных данных — np >= 5 и n(1-p) >= 5.
«Работает ли ЦПТ для экспоненциального распределения?»
Да. У экспоненциального распределения конечная дисперсия (sigma^2 = 1/lambda^2), поэтому ЦПТ применима. Но экспоненциальное сильно скошено вправо, поэтому для хорошего приближения нужно n порядка 30 и выше.
«Когда ЦПТ не работает?»
Три случая: (1) бесконечная дисперсия — распределение Коши, тяжёлые хвосты Парето с alpha <= 2; (2) зависимые наблюдения — автокорреляция, кластеры; (3) слишком маленькая выборка для данной степени асимметрии.
«Зачем ЦПТ нужна для A/B тестов?»
Она позволяет использовать z-тест и t-тест для сравнения средних между группами, не требуя нормальности исходных данных. Достаточно, чтобы в каждой группе было много наблюдений. Без ЦПТ пришлось бы применять непараметрические или перестановочные тесты.
Потренируйтесь решать задачи по статистике в Карьернике — тренажёре для подготовки к собеседованиям аналитиков.
FAQ
Что такое центральная предельная теорема простыми словами?
ЦПТ утверждает, что среднее арифметическое большого числа независимых случайных величин распределено приблизительно нормально — независимо от того, как распределена каждая отдельная величина. Именно поэтому нормальное распределение встречается повсюду в статистике и аналитике.
При каком размере выборки начинает работать ЦПТ?
Общее правило — n >= 30, но это грубая оценка. Для симметричных распределений хватает 10-15 наблюдений, а для сильно скошенных (например, доходы пользователей или суммы покупок) может потребоваться 100 и больше.
Зачем ЦПТ нужна в A/B тестах?
Она позволяет использовать z-тест и t-тест для сравнения средних между группами, не требуя нормальности исходных данных. Достаточно, чтобы в каждой группе было достаточно наблюдений — тогда выборочные средние будут нормальными по ЦПТ.
Когда центральная предельная теорема не работает?
ЦПТ ломается в трёх случаях: при бесконечной дисперсии (распределение Коши, тяжёлые хвосты Парето), при зависимых наблюдениях (автокорреляция, кластерные данные) и при слишком маленькой выборке для данной степени асимметрии распределения.