Вы считаете средний доход на пользователя как выборочное среднее. Данные сильно скошены, но у вас большая выборка. Почему аналитики часто строят доверительный интервал для среднего через нормальную аппроксимацию?

AПо закону больших чисел (LLN) доверительный интервал становится не нужен при достаточно большой выборке независимо от формы исходных данных
BПо центральной предельной теореме (CLT) распределение выборочного среднего близко к нормальному, и это даёт основание для нормальной аппроксимации
CВыборочное среднее из любых данных при большой выборке имеет распределение Стьюдента, которое практически совпадает с нормальной аппроксимацией
DПри большой выборке исходное распределение доходов само сходится к нормальному, и нормальная аппроксимация работает уже на уровне сырых наблюдений
Правильный ответ. Центральная предельная теорема даёт основание использовать нормальную аппроксимацию для доверительного интервала вокруг среднего при большой выборке.

Разбор

Даже если исходный доход сильно скошен, среднее по большой выборке ведёт себя более регулярно. Центральная предельная теорема описывает, что ошибка выборочного среднего после стандартизации имеет приблизительно нормальную форму, а значит можно оценить неопределённость. Это работает лучше при больших объёмах и при отсутствии экстремальных выбросов, доминирующих в сумме. LLN про сходимость среднего, а не про форму распределения, и не отменяет интервал; требование нормальности исходных данных — миф.

Проверь себя · 1/3разбор после ответа
Событие A — клик по рекламе, событие B — покупка. Какое утверждение лучше всего соответствует независимости событий A и B?
Тренировать статистику в Telegram

Ещё вопросы по теме «Совместные распределения и ЦПТ»