Данные по времени выполнения задачи сильно скошены и имеют длинный хвост. Какое утверждение наиболее корректно про normal approximation для sample mean при росте размера выборки?
A
CLT требует, чтобы исходные данные имели normal distribution, иначе приближение невозможноBДаже при ненормальных данных
CLT часто делает sampling distribution sample mean ближе к normal distribution при достаточно большой выборкеC
LLN говорит, что распределение исходных данных станет normal distribution при большом размере выборкиD
joint distribution времени и пользователей всегда имеет normal distributionПравильный ответ.
CLT относится к sampling distribution sample mean, поэтому исходные данные не обязаны иметь normal distribution.Разбор
Когда вы берёте sample mean по многим наблюдениям, вы фактически суммируете много вкладов и делите на размер выборки. Это и приводит к normal approximation распределения оценки среднего, даже если исходные значения асимметричны. Но при небольшом размере выборки и сильных выбросах приближение может быть хуже.
Проверь себя · 1/3разбор после ответа
У вас есть только
P(A) и P(B) для двух событий. В каком случае вы можете найти P(A∩B) без полной joint distribution?Ещё вопросы по теме «Совместные распределения и ЦПТ»
- В продуктовой аналитике вы смотрите одновременно `platform` (ios/android) и факт `purchase` (да/нет). Что описывает `joint distribution` (совместное распределение) этих двух признаков?
- Событие `A` — клик по рекламе, событие `B` — покупка. Какое утверждение лучше всего соответствует `independence` между `A` и `B`?
- Вы оцениваете средний чек как `sample mean` по 50 пользователям и затем по 5000 пользователям. Что утверждает `LLN` про поведение `sample mean` при росте размера выборки?
- Что является наиболее точным интуитивным описанием `CLT`?
- Распределение трат на пользователя сильно скошено: много маленьких чеков и редкие большие. Почему для `sample mean` трат по 5000 пользователям часто работает `normal approximation`?
- Все вопросы по «Совместные распределения и ЦПТ» →