Центральная предельная теорема на собеседовании

Q: Какой минимальный размер выборки для ЦПТ?

Классическое правило — n >= 30, но оно очень приблизительное. Для симметричных распределений хватает 15-20. Для сильно скошенных (revenue, время на сайте) может потребоваться 100-1000. Практический совет: проверяйте нормальность выборочного среднего через [bootstrap](/statistika-sobesedovanie/bootstrap) — это надёжнее любого правила.

Q: Чем ЦПТ отличается от закона больших чисел?

Закон больших чисел говорит, что среднее выборки **сходится** к математическому ожиданию при росте n. ЦПТ говорит, **как** оно сходится — через нормальное распределение с конкретной дисперсией sigma^2/n. ЗБЧ — про точность, ЦПТ — про форму распределения ошибки.

Что такое ЦПТ

Центральная предельная теорема (ЦПТ) — одна из фундаментальных теорем статистики. Она утверждает: среднее большого количества независимых одинаково распределённых случайных величин имеет распределение, близкое к нормальному, независимо от исходного распределения этих величин.

Проще говоря: возьмите любую метрику с любым распределением — доход пользователей, время сессии, количество покупок. Если вы посчитаете среднее по выборке достаточного размера, это среднее будет распределено приблизительно нормально. И чем больше выборка, тем точнее приближение.

На собеседовании ЦПТ проверяет фундаментальное понимание статистики. Кандидат, который может объяснить теорему простыми словами и связать её с практикой — демонстрирует глубину, а не заучивание формул.

Почему ЦПТ важна для аналитика

Обоснование нормального приближения. Большинство статистических тестов — t-тест, z-тест — предполагают нормальность. ЦПТ объясняет, почему эти тесты работают даже для ненормальных данных: мы тестируем среднее, а оно нормально при достаточной выборке.

Построение доверительных интервалов. Доверительный интервал для среднего строится на предположении нормальности выборочного среднего. ЦПТ даёт основание использовать формулу mean +/- z * SE, даже если исходные данные далеки от нормального распределения.

A/B-тесты. Когда вы сравниваете средние метрики между группами в A/B-тесте, вы опираетесь на ЦПТ. Разница средних при большой выборке нормальна — это позволяет использовать стандартные статистические тесты.

ЦПТ — это мост между реальными данными (которые почти никогда не нормальны) и статистическими методами (которые часто предполагают нормальность). Без этого моста большинство методов аналитики не работали бы.

Как объяснить простыми словами

Аналогия с монетами. Подбросьте одну монету — результат 0 или 1, совсем не похож на нормальное распределение. Подбросьте 10 монет и посчитайте сумму — распределение уже напоминает колокол. Подбросьте 100 — почти идеальная нормальная кривая. ЦПТ говорит, что это работает для любых величин, не только для монет.

Аналогия с ростом. Рост человека определяется множеством факторов: гены, питание, среда. Каждый фактор вносит свой случайный вклад. Их сумма — итоговый рост — распределена нормально, потому что складываются много независимых случайных эффектов.

Формальное условие. ЦПТ работает при трёх условиях: величины независимы, одинаково распределены, имеют конечную дисперсию. На практике «достаточная выборка» — обычно от 30 наблюдений, но для сильно скошенных распределений может потребоваться значительно больше.

Когда ЦПТ не работает

Малая выборка. При n < 30 приближение к нормальному может быть грубым, особенно для скошенных распределений. В таких случаях используют t-распределение (у которого «тяжелее» хвосты) или непараметрические методы.

Бесконечная дисперсия. Распределения с тяжёлыми хвостами (Парето с alpha <= 2, Коши) нарушают условие ЦПТ. Среднее таких величин не сходится к нормальному. В аналитике это встречается в данных о доходах или размерах транзакций.

Зависимость наблюдений. ЦПТ требует независимости. Если один пользователь генерирует несколько наблюдений (повторные покупки), нужно агрегировать до уровня пользователя или использовать кластерные методы.

Связь с доверительными интервалами

Формула доверительного интервала: mean +/- z * (sigma / sqrt(n)). Здесь sigma / sqrt(n) — стандартная ошибка среднего. ЦПТ гарантирует, что выборочное среднее распределено нормально, поэтому z-квантили дают корректные границы.

Важный нюанс. CI сужается с ростом выборки как 1/sqrt(n). Чтобы уменьшить интервал вдвое, нужно увеличить выборку в четыре раза. Это напрямую связано с расчётом размера выборки для A/B-тестов.

Типичные вопросы на собеседовании

«Объясните ЦПТ простыми словами» — среднее большой выборки распределено нормально, независимо от распределения данных. Чем больше выборка, тем точнее приближение
«Почему можно использовать t-тест для ненормальных данных?» — потому что t-тест проверяет среднее, а ЦПТ гарантирует нормальность среднего при достаточной выборке
«Когда ЦПТ не применима?» — малая выборка, бесконечная дисперсия (тяжёлые хвосты), зависимые наблюдения

На собеседовании не нужно доказывать теорему. Достаточно сформулировать утверждение, привести пример и объяснить, почему это важно для практической работы аналитика.

FAQ

Какой минимальный размер выборки для ЦПТ?

Классическое правило — n >= 30, но оно очень приблизительное. Для симметричных распределений хватает 15-20. Для сильно скошенных (revenue, время на сайте) может потребоваться 100-1000. Практический совет: проверяйте нормальность выборочного среднего через bootstrap — это надёжнее любого правила.

Чем ЦПТ отличается от закона больших чисел?

Закон больших чисел говорит, что среднее выборки сходится к математическому ожиданию при росте n. ЦПТ говорит, как оно сходится — через нормальное распределение с конкретной дисперсией sigma^2/n. ЗБЧ — про точность, ЦПТ — про форму распределения ошибки.

Применима ли ЦПТ к медиане?

Да, но с оговорками. Для медианы существует аналогичная теорема, но сходимость медленнее, а дисперсия зависит от плотности распределения в точке медианы. На практике для медианы чаще используют bootstrap, чем нормальное приближение.

Смотрите также

Тренироваться в Telegram