Совместные распределения и ЦПТ: вопросы для собеседования (часть 4)
Совместные распределения, маргинальные распределения, центральная предельная теорема — мост между теорией вероятностей и статистикой. ЦПТ объясняет, почему нормальное распределение так часто встречается и почему работает z-тест. На собеседовании просят сформулировать ЦПТ и привести пример её применения.
Вопросы 16–20 из 20
16Если события `A` и `B` являются `independent`, какая формула верна?
A`P(A∩B)=P(A)+P(B)`
B`P(A∩B)=P(A)/P(B)`
C`P(A∩B)=P(A|B)+P(B|A)`
D`P(A∩B)=P(A)*P(B)`
Ответ: При `independence` совместная вероятность равна произведению маргинальных: `P(A∩B)=P(A)*P(B)`.
Это свойство позволяет вычислять совместные вероятности без полной `joint distribution`, но только когда предположение независимости разумно. Если `P(A|B)` отличается от `P(A)`, то `independence` нарушается, и формула не работает. В интервью важно уметь проговорить, что независимость — сильное предположение, которое нужно проверять или обосновывать.
17Какое утверждение корректно различает `LLN` и `CLT`?
A`LLN` говорит, что данные становятся `normal distribution`, а `CLT` — что `sample mean` сходится к `expected value`
B`LLN` и `CLT` — одно и то же, просто разными словами
C`LLN` — про то, что `sample mean` приближается к `expected value`, а `CLT` — про то, что `sampling distribution` `sample mean` становится близка к `normal distribution` и даёт `normal approximation`
D`CLT` работает только если известна `joint distribution`, а `LLN` — только если она неизвестна
Ответ: `LLN` отвечает за сходимость `sample mean`, а `CLT` — за форму `sampling distribution` и `normal approximation`.
По `LLN` `sample mean` на большой выборке обычно близка к `expected value`, но это не говорит, как распределена ошибка. `CLT` добавляет, что после стандартизации ошибка `sample mean` ведёт себя примерно как `normal distribution`. Поэтому `LLN` объясняет стабильность, а `CLT` — почему так часто применяют `normal approximation`.
18Представьте, что вы 100 раз независимо собираете выборку пользователей и каждый раз считаете `sample mean` выручки. Что говорит `CLT` про `sampling distribution` этого `sample mean` при большом размере выборки?
AПо `LLN` все 100 значений будут одинаковыми
BОна будет близка к `normal distribution`, поэтому можно использовать `normal approximation` для `confidence interval`
CОна совпадёт с `joint distribution` исходных трат пользователей
DОна будет равномерной, потому что `sum` имеет много возможных значений
Ответ: `CLT` описывает, что `sampling distribution` `sample mean` при большом размере выборки становится близка к `normal distribution`.
Важно, что `CLT` говорит о распределении оценок при повторении выборки, а не о распределении самих трат. Из этого следует практический инструмент: `normal approximation` для построения `confidence interval` вокруг `sample mean`. Поэтому `CLT` постоянно появляется в разговорах об оценках и неопределённости.
19Вы посчитали `sample mean` по 20 пользователям, и построенная `normal approximation` выглядит подозрительно: оценка сильно меняется при добавлении пары пользователей. Что наиболее разумно сказать?
A`CLT` не работает вообще, её можно игнорировать
BЭто значит, что `LLN` нарушена, потому что `LLN` гарантирует `normal approximation`
CРазмер выборки может быть слишком мал, поэтому `CLT` даёт слабую `normal approximation` для `sample mean`
DНужно перейти от `sample mean` к `joint distribution`, и проблема исчезнет
Ответ: Для малого размера выборки `CLT` может давать слабую `normal approximation`, особенно если данные скошены или есть выбросы.
`CLT` — это приближение, которое обычно становится лучше при росте размера выборки. Если несколько наблюдений резко меняют `sample mean`, значит шум ещё велик и итоговая оценка нестабильна. Практически это сигнал не делать слишком уверенных выводов и собирать больше данных.
20Вы считаете средний доход на пользователя как `sample mean`. Данные сильно скошены, но у вас большая выборка. Почему аналитики часто строят `confidence interval` для `sample mean` через `normal approximation`?
AПотому что `LLN` делает `confidence interval` ненужным
BПотому что `joint distribution` доходов всегда имеет `normal distribution`
CПотому что по `CLT` `sampling distribution` `sample mean` близка к `normal distribution`, что позволяет `normal approximation` для `confidence interval`
DПотому что исходные данные обязаны иметь `normal distribution`, иначе интервалы запрещены
Ответ: `CLT` даёт основание использовать `normal approximation` для `confidence interval` вокруг `sample mean` при большом размере выборки.
Даже если исходный доход сильно скошен, среднее по большой выборке ведёт себя более регулярно. `CLT` описывает, что ошибка `sample mean` имеет примерно нормальную форму после стандартизации, а значит можно оценить неопределённость. Это работает лучше при больших объёмах и при отсутствии экстремальных выбросов, доминирующих в `sum`.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Теория вероятностей