Распределение трат на пользователя сильно скошено: много маленьких чеков и редкие большие. Почему для выборочного среднего трат по 5000 пользователям часто хорошо работает нормальное приближение?

Question

Карьерник · Accepted Answer

Правильный ответ: Потому что по `CLT` распределение выборочного среднего становится близким к нормальному при большом размере выборки. По `CLT` выборочное среднее при достаточно большой выборке распределено приближённо нормально, даже если исходные данные скошены. Исходные данные могут быть ненормальными, но выборочное среднее строится через сумму большого числа независимых вкладов и деление на размер выборки. По `CLT` распределение этой статистики приближается к нормальному, что и оправдывает нормальное приближение для интервалов и тестов. На маленьких выборках с тяжёлыми хвостами и сильными выбросами приближение может быть заметно хуже. `LLN` отвечает за сходимость к ожиданию, а не за форму распределения среднего.

Разбор

Ещё вопросы по теме «Совместные распределения и ЦПТ»