Центральная предельная теорема: формулировка и применение

Проверь себя · 1/3разбор после ответа
Аналитик пишет: SELECT clicks / NULLIF(views, 0) AS ctr FROM campaigns. Зачем здесь используется NULLIF(views, 0)?

Что утверждает центральная предельная теорема

Центральная предельная теорема (ЦПТ) утверждает: среднее арифметическое большого числа независимых одинаково распределённых случайных величин имеет распределение, близкое к нормальному, — независимо от того, как распределена каждая отдельная величина.

Это фундаментальный результат теории вероятностей. Именно благодаря ЦПТ нормальное распределение встречается повсюду — от роста людей до среднего чека в e-commerce.

Почему аналитику без этого никуда

Если вы работаете с данными, ЦПТ лежит в основе почти всего, что вы делаете:

  • Доверительные интервалы строятся на предположении, что выборочное среднее распределено нормально. Это предположение работает именно благодаря ЦПТ.
  • Проверка гипотез — z-тест и t-тест опираются на нормальность среднего, а не на нормальность исходных данных.
  • A/B тесты — когда вы сравниваете конверсии или средний чек между группами, вы неявно используете ЦПТ каждый раз.

Без ЦПТ пришлось бы для каждой метрики доказывать нормальность исходного распределения, что в реальных данных невозможно.

Пример с кубиком: от равномерного к нормальному

Разберём на конкретных числах, как ЦПТ превращает любое распределение в нормальное.

Один бросок кубика

Результат одного броска — равномерное распределение на {1, 2, 3, 4, 5, 6}. Каждое значение выпадает с вероятностью 1/6. Среднее = 3.5, дисперсия = 2.917.

Гистограмма — плоская: шесть столбиков одинаковой высоты. Ничего похожего на колокол.

Среднее двух кубиков

Бросьте два кубика и посчитайте среднее. Возможные значения: от 1.0 до 6.0 с шагом 0.5. Но вероятности уже неравномерны:

  • Среднее 1.0 (оба кубика = 1): вероятность 1/36 = 2.8%
  • Среднее 3.5 (сумма = 7): вероятность 6/36 = 16.7%
  • Среднее 6.0 (оба кубика = 6): вероятность 1/36 = 2.8%

Гистограмма — треугольная, с пиком на 3.5. Уже видна тенденция к симметрии.

Среднее 30 кубиков

Бросьте 30 кубиков. Среднее каждой серии из 30 бросков — величина с параметрами:

  • Математическое ожидание: 3.5 (не меняется)
  • Стандартное отклонение: sqrt(2.917 / 30) = 0.312

По ЦПТ, распределение этого среднего уже практически неотличимо от нормального N(3.5, 0.312). Гистограмма — классический колокол. Значения почти никогда не выходят за пределы 3.5 +/- 0.9.

Исходное распределение было плоским. Но среднее 30 наблюдений — гауссово. Это и есть ЦПТ в действии.

Формальные условия

ЦПТ работает не всегда. Три ключевых условия:

1. Независимость. Наблюдения не должны влиять друг на друга. Если сегодняшняя выручка зависит от вчерашней (временной ряд с автокорреляцией), классическая ЦПТ неприменима напрямую.

2. Конечная дисперсия. У распределения каждого наблюдения должна существовать конечная дисперсия. Для большинства метрик в аналитике (конверсия, время на сайте, чек) это выполняется.

3. Достаточный размер выборки. Правило большого пальца: n >= 30 — минимум, при котором ЦПТ начинает давать разумное приближение. Но это грубая оценка:

  • Для симметричных распределений (например, равномерное) хватает n = 10-15.
  • Для сильно скошенных (например, доходы пользователей, время сессии) может потребоваться n = 100 и больше.
  • Для бернуллиевских данных (конверсия) правило np >= 5 и n(1-p) >= 5.
Подготовься к собесу по A/B и статистике
300+ вопросов с разбором: дизайн, размер выборки, p-value, ловушки
Тренировать A/B в Telegram

Когда ЦПТ ломается

Есть ситуации, в которых полагаться на ЦПТ опасно:

Тяжёлые хвосты

Распределения с бесконечной дисперсией (например, распределение Коши или Парето с альфа <= 2) не подчиняются ЦПТ. Среднее таких величин не сходится к нормальному — даже при миллионах наблюдений.

На практике это встречается в финансовых данных (доходности акций) и в метриках с экстремальными выбросами (суммы покупок, где 1% пользователей генерирует 90% выручки).

Зависимые данные

Если наблюдения коррелированы (данные одного пользователя во времени, пользователи в одном кластере), стандартная ЦПТ занижает дисперсию среднего. Доверительные интервалы получаются слишком узкими, а p-value — слишком маленькими.

Решение: кластерные стандартные ошибки, бутстрап или специальные версии ЦПТ для зависимых данных.

Маленькая выборка

При n = 5-10 приближение часто неточное, особенно для скошенных распределений. В этом случае лучше использовать t-распределение (для средних) или непараметрические методы.

Симуляция на Python

Лучший способ убедиться в ЦПТ — увидеть её в действии. Возьмём экспоненциальное распределение (сильно скошенное, lambda = 1) и посмотрим, как выборочное среднее становится нормальным.

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(42)
population = rng.exponential(scale=1.0, size=1_000_000)

sample_sizes = [1, 5, 30, 100]
fig, axes = plt.subplots(1, 4, figsize=(16, 4))

for ax, n in zip(axes, sample_sizes):
    means = [
        rng.choice(population, size=n, replace=False).mean()
        for _ in range(10_000)
    ]
    ax.hist(means, bins=50, density=True, alpha=0.7, color="#556B2F")
    ax.set_title(f"n = {n}")
    ax.set_xlim(0, 3)

fig.suptitle("ЦПТ: экспоненциальное распределение -> нормальное среднее")
plt.tight_layout()
plt.savefig("clt_simulation.png", dpi=150)
plt.show()

При n = 1 гистограмма — экспоненциальная кривая (резкий пик слева, длинный хвост справа). При n = 5 — уже заметна симметрия. При n = 30 — почти идеальный колокол. При n = 100 — колокол сужается, стандартное отклонение среднего падает в 10 раз по сравнению с исходным.

Стандартное отклонение среднего = sigma / sqrt(n). Для экспоненциального с lambda = 1 (sigma = 1):

n Ст. откл. среднего 95% значений лежат в
1 1.000 0.03–3.69
5 0.447 0.33–2.04
30 0.183 0.64–1.36
100 0.100 0.80–1.20

Связь с A/B тестами и доверительными интервалами

Когда вы проводите A/B тест, вы сравниваете выборочные средние двух групп. ЦПТ гарантирует, что каждое из этих средних распределено приблизительно нормально (при достаточном n). Из этого следует:

  1. Разность средних тоже распределена нормально (сумма нормальных — нормальна).
  2. Можно вычислить z-статистику = (среднее_A - среднее_B) / SE и сравнить с порогом.
  3. Доверительный интервал для разности строится как разность +/- z * SE.

Без ЦПТ ни один из этих шагов не имел бы теоретического обоснования. Вам пришлось бы использовать перестановочные тесты или бутстрап для каждой метрики — что вычислительно дороже и сложнее в продакшене.

Важный нюанс: ЦПТ говорит о распределении среднего, а не о распределении самих данных. Данные могут быть как угодно скошены. Если в группе достаточно наблюдений, среднее будет нормальным.

Вопросы с собеседований

На собеседованиях по статистике ЦПТ спрашивают регулярно. Вот типичные формулировки и ожидаемые ответы:

«Что утверждает центральная предельная теорема?»

Среднее арифметическое n независимых одинаково распределённых случайных величин с конечной дисперсией при n -> бесконечности сходится по распределению к нормальному. Среднее этого нормального равно математическому ожиданию исходной величины, дисперсия — sigma^2 / n.

«При каком n начинает работать ЦПТ?»

Зависит от формы исходного распределения. Правило большого пальца — n >= 30 для умеренно скошенных распределений. Для симметричных хватает 10-15. Для сильно скошенных (например, доходы, суммы покупок) может потребоваться 100+. Для бинарных данных — np >= 5 и n(1-p) >= 5.

«Работает ли ЦПТ для экспоненциального распределения?»

Да. У экспоненциального распределения конечная дисперсия (sigma^2 = 1/lambda^2), поэтому ЦПТ применима. Но экспоненциальное сильно скошено вправо, поэтому для хорошего приближения нужно n порядка 30 и выше.

«Когда ЦПТ не работает?»

Три случая: (1) бесконечная дисперсия — распределение Коши, тяжёлые хвосты Парето с alpha <= 2; (2) зависимые наблюдения — автокорреляция, кластеры; (3) слишком маленькая выборка для данной степени асимметрии.

«Зачем ЦПТ нужна для A/B тестов?»

Она позволяет использовать z-тест и t-тест для сравнения средних между группами, не требуя нормальности исходных данных. Достаточно, чтобы в каждой группе было много наблюдений. Без ЦПТ пришлось бы применять непараметрические или перестановочные тесты.

FAQ

Что такое центральная предельная теорема простыми словами?

ЦПТ утверждает, что среднее арифметическое большого числа независимых случайных величин распределено приблизительно нормально — независимо от того, как распределена каждая отдельная величина. Именно поэтому нормальное распределение встречается повсюду в статистике и аналитике.

При каком размере выборки начинает работать ЦПТ?

Общее правило — n >= 30, но это грубая оценка. Для симметричных распределений хватает 10-15 наблюдений, а для сильно скошенных (например, доходы пользователей или суммы покупок) может потребоваться 100 и больше.

Зачем ЦПТ нужна в A/B тестах?

Она позволяет использовать z-тест и t-тест для сравнения средних между группами, не требуя нормальности исходных данных. Достаточно, чтобы в каждой группе было достаточно наблюдений — тогда выборочные средние будут нормальными по ЦПТ.

Когда центральная предельная теорема не работает?

ЦПТ ломается в трёх случаях: при бесконечной дисперсии (распределение Коши, тяжёлые хвосты Парето), при зависимых наблюдениях (автокорреляция, кластерные данные) и при слишком маленькой выборке для данной степени асимметрии распределения.