Центральная предельная теорема простыми словами

Что утверждает центральная предельная теорема

Центральная предельная теорема (ЦПТ) утверждает: среднее арифметическое большого числа независимых одинаково распределённых случайных величин имеет распределение, близкое к нормальному, — независимо от того, как распределена каждая отдельная величина.

Это фундаментальный результат теории вероятностей. Именно благодаря ЦПТ нормальное распределение встречается повсюду — от роста людей до среднего чека в e-commerce.

Почему аналитику без этого никуда

Если вы работаете с данными, ЦПТ лежит в основе почти всего, что вы делаете:

  • Доверительные интервалы строятся на предположении, что выборочное среднее распределено нормально. Это предположение работает именно благодаря ЦПТ.
  • Проверка гипотез — z-тест и t-тест опираются на нормальность среднего, а не на нормальность исходных данных.
  • A/B тесты — когда вы сравниваете конверсии или средний чек между группами, вы неявно используете ЦПТ каждый раз.

Без ЦПТ пришлось бы для каждой метрики доказывать нормальность исходного распределения, что в реальных данных невозможно.

Пример с кубиком: от равномерного к нормальному

Разберём на конкретных числах, как ЦПТ превращает любое распределение в нормальное.

Один бросок кубика

Результат одного броска — равномерное распределение на {1, 2, 3, 4, 5, 6}. Каждое значение выпадает с вероятностью 1/6. Среднее = 3.5, дисперсия = 2.917.

Гистограмма — плоская: шесть столбиков одинаковой высоты. Ничего похожего на колокол.

Среднее двух кубиков

Бросьте два кубика и посчитайте среднее. Возможные значения: от 1.0 до 6.0 с шагом 0.5. Но вероятности уже неравномерны:

  • Среднее 1.0 (оба кубика = 1): вероятность 1/36 = 2.8%
  • Среднее 3.5 (сумма = 7): вероятность 6/36 = 16.7%
  • Среднее 6.0 (оба кубика = 6): вероятность 1/36 = 2.8%

Гистограмма — треугольная, с пиком на 3.5. Уже видна тенденция к симметрии.

Среднее 30 кубиков

Бросьте 30 кубиков. Среднее каждой серии из 30 бросков — величина с параметрами:

  • Математическое ожидание: 3.5 (не меняется)
  • Стандартное отклонение: sqrt(2.917 / 30) = 0.312

По ЦПТ, распределение этого среднего уже практически неотличимо от нормального N(3.5, 0.312). Гистограмма — классический колокол. Значения почти никогда не выходят за пределы 3.5 +/- 0.9.

Исходное распределение было плоским. Но среднее 30 наблюдений — гауссово. Это и есть ЦПТ в действии.

Формальные условия

ЦПТ работает не всегда. Три ключевых условия:

1. Независимость. Наблюдения не должны влиять друг на друга. Если сегодняшняя выручка зависит от вчерашней (временной ряд с автокорреляцией), классическая ЦПТ неприменима напрямую.

2. Конечная дисперсия. У распределения каждого наблюдения должна существовать конечная дисперсия. Для большинства метрик в аналитике (конверсия, время на сайте, чек) это выполняется.

3. Достаточный размер выборки. Правило большого пальца: n >= 30 — минимум, при котором ЦПТ начинает давать разумное приближение. Но это грубая оценка:

  • Для симметричных распределений (например, равномерное) хватает n = 10-15.
  • Для сильно скошенных (например, доходы пользователей, время сессии) может потребоваться n = 100 и больше.
  • Для бернуллиевских данных (конверсия) правило np >= 5 и n(1-p) >= 5.

Когда ЦПТ ломается

Есть ситуации, в которых полагаться на ЦПТ опасно:

Тяжёлые хвосты

Распределения с бесконечной дисперсией (например, распределение Коши или Парето с альфа <= 2) не подчиняются ЦПТ. Среднее таких величин не сходится к нормальному — даже при миллионах наблюдений.

На практике это встречается в финансовых данных (доходности акций) и в метриках с экстремальными выбросами (суммы покупок, где 1% пользователей генерирует 90% выручки).

Зависимые данные

Если наблюдения коррелированы (данные одного пользователя во времени, пользователи в одном кластере), стандартная ЦПТ занижает дисперсию среднего. Доверительные интервалы получаются слишком узкими, а p-value — слишком маленькими.

Решение: кластерные стандартные ошибки, бутстрап или специальные версии ЦПТ для зависимых данных.

Маленькая выборка

При n = 5-10 приближение часто неточное, особенно для скошенных распределений. В этом случае лучше использовать t-распределение (для средних) или непараметрические методы.

Симуляция на Python

Лучший способ убедиться в ЦПТ — увидеть её в действии. Возьмём экспоненциальное распределение (сильно скошенное, lambda = 1) и посмотрим, как выборочное среднее становится нормальным.

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(42)
population = rng.exponential(scale=1.0, size=1_000_000)

sample_sizes = [1, 5, 30, 100]
fig, axes = plt.subplots(1, 4, figsize=(16, 4))

for ax, n in zip(axes, sample_sizes):
    means = [
        rng.choice(population, size=n, replace=False).mean()
        for _ in range(10_000)
    ]
    ax.hist(means, bins=50, density=True, alpha=0.7, color="#556B2F")
    ax.set_title(f"n = {n}")
    ax.set_xlim(0, 3)

fig.suptitle("ЦПТ: экспоненциальное распределение -> нормальное среднее")
plt.tight_layout()
plt.savefig("clt_simulation.png", dpi=150)
plt.show()

При n = 1 гистограмма — экспоненциальная кривая (резкий пик слева, длинный хвост справа). При n = 5 — уже заметна симметрия. При n = 30 — почти идеальный колокол. При n = 100 — колокол сужается, стандартное отклонение среднего падает в 10 раз по сравнению с исходным.

Стандартное отклонение среднего = sigma / sqrt(n). Для экспоненциального с lambda = 1 (sigma = 1):

n Ст. откл. среднего 95% значений лежат в
1 1.000 0.03–3.69
5 0.447 0.33–2.04
30 0.183 0.64–1.36
100 0.100 0.80–1.20

Связь с A/B тестами и доверительными интервалами

Когда вы проводите A/B тест, вы сравниваете выборочные средние двух групп. ЦПТ гарантирует, что каждое из этих средних распределено приблизительно нормально (при достаточном n). Из этого следует:

  1. Разность средних тоже распределена нормально (сумма нормальных — нормальна).
  2. Можно вычислить z-статистику = (среднее_A - среднее_B) / SE и сравнить с порогом.
  3. Доверительный интервал для разности строится как разность +/- z * SE.

Без ЦПТ ни один из этих шагов не имел бы теоретического обоснования. Вам пришлось бы использовать перестановочные тесты или бутстрап для каждой метрики — что вычислительно дороже и сложнее в продакшене.

Важный нюанс: ЦПТ говорит о распределении среднего, а не о распределении самих данных. Данные могут быть как угодно скошены. Если в группе достаточно наблюдений, среднее будет нормальным.

Вопросы с собеседований

На собеседованиях по статистике ЦПТ спрашивают регулярно. Вот типичные формулировки и ожидаемые ответы:

«Что утверждает центральная предельная теорема?»

Среднее арифметическое n независимых одинаково распределённых случайных величин с конечной дисперсией при n -> бесконечности сходится по распределению к нормальному. Среднее этого нормального равно математическому ожиданию исходной величины, дисперсия — sigma^2 / n.

«При каком n начинает работать ЦПТ?»

Зависит от формы исходного распределения. Правило большого пальца — n >= 30 для умеренно скошенных распределений. Для симметричных хватает 10-15. Для сильно скошенных (например, доходы, суммы покупок) может потребоваться 100+. Для бинарных данных — np >= 5 и n(1-p) >= 5.

«Работает ли ЦПТ для экспоненциального распределения?»

Да. У экспоненциального распределения конечная дисперсия (sigma^2 = 1/lambda^2), поэтому ЦПТ применима. Но экспоненциальное сильно скошено вправо, поэтому для хорошего приближения нужно n порядка 30 и выше.

«Когда ЦПТ не работает?»

Три случая: (1) бесконечная дисперсия — распределение Коши, тяжёлые хвосты Парето с alpha <= 2; (2) зависимые наблюдения — автокорреляция, кластеры; (3) слишком маленькая выборка для данной степени асимметрии.

«Зачем ЦПТ нужна для A/B тестов?»

Она позволяет использовать z-тест и t-тест для сравнения средних между группами, не требуя нормальности исходных данных. Достаточно, чтобы в каждой группе было много наблюдений. Без ЦПТ пришлось бы применять непараметрические или перестановочные тесты.


Потренируйтесь решать задачи по статистике в Карьернике — тренажёре для подготовки к собеседованиям аналитиков.

FAQ

Что такое центральная предельная теорема простыми словами?

ЦПТ утверждает, что среднее арифметическое большого числа независимых случайных величин распределено приблизительно нормально — независимо от того, как распределена каждая отдельная величина. Именно поэтому нормальное распределение встречается повсюду в статистике и аналитике.

При каком размере выборки начинает работать ЦПТ?

Общее правило — n >= 30, но это грубая оценка. Для симметричных распределений хватает 10-15 наблюдений, а для сильно скошенных (например, доходы пользователей или суммы покупок) может потребоваться 100 и больше.

Зачем ЦПТ нужна в A/B тестах?

Она позволяет использовать z-тест и t-тест для сравнения средних между группами, не требуя нормальности исходных данных. Достаточно, чтобы в каждой группе было достаточно наблюдений — тогда выборочные средние будут нормальными по ЦПТ.

Когда центральная предельная теорема не работает?

ЦПТ ломается в трёх случаях: при бесконечной дисперсии (распределение Коши, тяжёлые хвосты Парето), при зависимых наблюдениях (автокорреляция, кластерные данные) и при слишком маленькой выборке для данной степени асимметрии распределения.