Закон больших чисел простыми словами
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Зачем это знать
«Почему с ростом выборки точность растёт?» — вопрос проверки базовой статистики. Закон больших чисел (ЗБЧ) — самая фундаментальная теорема теории вероятностей. Без неё нет смысла в sample size calculation, confidence intervals, A/B-тестах.
На собесах часто смешивают ЗБЧ и ЦПТ. Умение чётко их разделить = middle-понимание.
Короткое объяснение
ЗБЧ: среднее выборки сходится к истинному среднему с ростом N.
X̄ → μ при N → ∞Формально: P(|X̄ - μ| > ε) → 0 для любого ε > 0.
Пример
Монета: орёл с p = 0.5.
- 10 бросков: частота орла = 0.6 (далеко от 0.5)
- 100 бросков: 0.52
- 10 000 бросков: 0.501
- 1 000 000: 0.5002
С ростом N — частота стабилизируется вокруг истинного p.
ЗБЧ vs ЦПТ
Часто путают. Разница:
| ЗБЧ | ЦПТ | |
|---|---|---|
| О чём | X̄ → μ | Распределение X̄ → Normal |
| Говорит | Точка: куда стремится | Форма: как колеблется |
| Нужно для | Обоснование оценок | Построение CI, тесты |
ЗБЧ говорит «куда», ЦПТ — «как разбросано вокруг».
Пример в аналитике
CR = 10%
На 100 users, estimated CR может быть 7-13% (шум).
На 10 000 users — 9.5-10.5%.
На 1 000 000 users — 9.95-10.05%.
Это ЗБЧ: с ростом N оценка становится точнее.
Gambler's fallacy
Распространённая ошибка: «Выпало 10 решек подряд → сейчас точно орёл».
Нет. ЗБЧ не значит что короткие отклонения «компенсируются». Монета не помнит прошлое.
ЗБЧ работает asymptotically — в среднем на огромной выборке.
Слабый vs сильный
Два варианта:
Weak LLN
X̄ - μ сходится по вероятности к 0.
Strong LLN
X̄ - μ сходится почти наверное к 0 (almost sure).
На практике разница редко важна. Оба работают.
В Python (симуляция)
import numpy as np
true_mean = 0.5 # истинное среднее
errors = []
for n in [10, 100, 1000, 10000, 100000]:
samples = np.random.binomial(1, true_mean, n)
errors.append(abs(samples.mean() - true_mean))
# errors должны уменьшаться с ростом nИспользование
Sample size
ЗБЧ говорит: с N → ∞ оценка становится точной. Но как быстро?
Ответ — ЦПТ: std ошибка ~ σ/√N. Для точности ×2 нужно N ×4.
A/B-тесты
ЗБЧ обосновывает, что CR из обоих групп — это оценки истинного p. Тест сравнивает эти оценки.
Expected value
Долгосрочная прибыль бизнеса = E[прибыль × N]. ЗБЧ обеспечивает, что реальность сойдётся к expectation.
Когда не работает
Нужна конечная mean. Cauchy distribution — mean не определён, ЗБЧ не работает.
На практике — это редкий кейс, но важно понимать ограничения.
На собесе
«Что такое ЗБЧ?» Среднее выборки → истинное среднее при N → ∞.
«Разница с ЦПТ?» ЗБЧ — точка (куда), ЦПТ — форма (как разбросано).
«Всегда работает?» Нужны независимость и конечная mean.
«Gambler's fallacy почему ошибка?» ЗБЧ про asymptotic behavior, не про «компенсацию» в коротком окне.
Частые ошибки
Путать с ЦПТ
ЗБЧ — сходимость к числу. ЦПТ — сходимость distribution к normal.
«Компенсация»
ЗБЧ не говорит, что «несколько неудач» → «будут удачи». Это ошибка.
На малых N
N = 10 — слишком мало для ЗБЧ. Нужно понимать, что оценка нестабильна.
Связанные темы
- Центральная предельная теорема
- Нормальное распределение
- Размер выборки для A/B
- Теория вероятностей для аналитика
FAQ
Скорость сходимости?
~ 1/√N (из ЦПТ).
Для медианы работает?
Да, для медианы тоже (с некоторыми условиями).
На биномиальном?
Да, CR → истинное p с ростом N.
Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.