Закон больших чисел простыми словами

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Зачем это знать

«Почему с ростом выборки точность растёт?» — вопрос проверки базовой статистики. Закон больших чисел (ЗБЧ) — самая фундаментальная теорема теории вероятностей. Без неё нет смысла в sample size calculation, confidence intervals, A/B-тестах.

На собесах часто смешивают ЗБЧ и ЦПТ. Умение чётко их разделить = middle-понимание.

Короткое объяснение

ЗБЧ: среднее выборки сходится к истинному среднему с ростом N.

X̄ → μ при N → ∞

Формально: P(|X̄ - μ| > ε) → 0 для любого ε > 0.

Пример

Монета: орёл с p = 0.5.

  • 10 бросков: частота орла = 0.6 (далеко от 0.5)
  • 100 бросков: 0.52
  • 10 000 бросков: 0.501
  • 1 000 000: 0.5002

С ростом N — частота стабилизируется вокруг истинного p.

ЗБЧ vs ЦПТ

Часто путают. Разница:

ЗБЧ ЦПТ
О чём X̄ → μ Распределение X̄ → Normal
Говорит Точка: куда стремится Форма: как колеблется
Нужно для Обоснование оценок Построение CI, тесты

ЗБЧ говорит «куда», ЦПТ — «как разбросано вокруг».

Пример в аналитике

CR = 10%

На 100 users, estimated CR может быть 7-13% (шум).

На 10 000 users — 9.5-10.5%.

На 1 000 000 users — 9.95-10.05%.

Это ЗБЧ: с ростом N оценка становится точнее.

Gambler's fallacy

Распространённая ошибка: «Выпало 10 решек подряд → сейчас точно орёл».

Нет. ЗБЧ не значит что короткие отклонения «компенсируются». Монета не помнит прошлое.

ЗБЧ работает asymptotically — в среднем на огромной выборке.

Слабый vs сильный

Два варианта:

Weak LLN

X̄ - μ сходится по вероятности к 0.

Strong LLN

X̄ - μ сходится почти наверное к 0 (almost sure).

На практике разница редко важна. Оба работают.

В Python (симуляция)

import numpy as np

true_mean = 0.5  # истинное среднее
errors = []

for n in [10, 100, 1000, 10000, 100000]:
    samples = np.random.binomial(1, true_mean, n)
    errors.append(abs(samples.mean() - true_mean))

# errors должны уменьшаться с ростом n

Использование

Sample size

ЗБЧ говорит: с N → ∞ оценка становится точной. Но как быстро?

Ответ — ЦПТ: std ошибка ~ σ/√N. Для точности ×2 нужно N ×4.

A/B-тесты

ЗБЧ обосновывает, что CR из обоих групп — это оценки истинного p. Тест сравнивает эти оценки.

Expected value

Долгосрочная прибыль бизнеса = E[прибыль × N]. ЗБЧ обеспечивает, что реальность сойдётся к expectation.

Когда не работает

Нужна конечная mean. Cauchy distribution — mean не определён, ЗБЧ не работает.

На практике — это редкий кейс, но важно понимать ограничения.

На собесе

«Что такое ЗБЧ?» Среднее выборки → истинное среднее при N → ∞.

«Разница с ЦПТ?» ЗБЧ — точка (куда), ЦПТ — форма (как разбросано).

«Всегда работает?» Нужны независимость и конечная mean.

«Gambler's fallacy почему ошибка?» ЗБЧ про asymptotic behavior, не про «компенсацию» в коротком окне.

Частые ошибки

Путать с ЦПТ

ЗБЧ — сходимость к числу. ЦПТ — сходимость distribution к normal.

«Компенсация»

ЗБЧ не говорит, что «несколько неудач» → «будут удачи». Это ошибка.

На малых N

N = 10 — слишком мало для ЗБЧ. Нужно понимать, что оценка нестабильна.

Связанные темы

FAQ

Скорость сходимости?

~ 1/√N (из ЦПТ).

Для медианы работает?

Да, для медианы тоже (с некоторыми условиями).

На биномиальном?

Да, CR → истинное p с ростом N.


Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.