Вы считаете средний доход на пользователя как выборочное среднее. Данные сильно скошены, но у вас большая выборка. Почему аналитики часто строят доверительный интервал для среднего через нормальную аппроксимацию?

Question

Карьерник · Accepted Answer

Правильный ответ: По центральной предельной теореме (`CLT`) распределение выборочного среднего близко к нормальному, и это даёт основание для нормальной аппроксимации. Центральная предельная теорема даёт основание использовать нормальную аппроксимацию для доверительного интервала вокруг среднего при большой выборке. Даже если исходный доход сильно скошен, среднее по большой выборке ведёт себя более регулярно. Центральная предельная теорема описывает, что ошибка выборочного среднего после стандартизации имеет приблизительно нормальную форму, а значит можно оценить неопределённость. Это работает лучше при больших объёмах и при отсутствии экстремальных выбросов, доминирующих в сумме. `LLN` про сходимость среднего, а не про форму распределения, и не отменяет интервал; требование нормальности исходных данных — миф.

Разбор

Ещё вопросы по теме «Совместные распределения и ЦПТ»