Совместные распределения и ЦПТ: вопросы для собеседования (часть 3)

Совместные распределения, маргинальные распределения, центральная предельная теорема — мост между теорией вероятностей и статистикой. ЦПТ объясняет, почему нормальное распределение так часто встречается и почему работает z-тест. На собеседовании просят сформулировать ЦПТ и привести пример её применения.

Теорема БайесаУсловная вероятностьНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСлучайные величины: основыМножества и события

Вопросы 1115 из 20

11Вы знаете `P(A)` и `P(B)` для двух событий в продукте: просмотр карточки и покупка. Зачем может понадобиться `joint distribution`, если уже известны обе маргинальные вероятности?
AЧтобы получить `sample mean` по пользователям
BЧтобы вычислить `P(A)` и `P(B)` заново
CЧтобы узнать `P(A∩B)` и проверить, похоже ли поведение на `independence`
DЧтобы доказать причинность между `A` и `B` без эксперимента
Ответ: Без `joint distribution` нельзя восстановить `P(A∩B)` и проверить связь или `independence` между событиями.

Маргинальные вероятности `P(A)` и `P(B)` показывают, как часто встречается каждое событие по отдельности, но не говорят, встречаются ли они вместе у одних и тех же пользователей. `joint distribution` содержит вероятности для комбинаций и позволяет считать `P(A∩B)` и условные вероятности вроде `P(A|B)`. Поэтому совместная таблица часто важнее отдельных долей.

12Данные по времени выполнения задачи сильно скошены и имеют длинный хвост. Какое утверждение наиболее корректно про `normal approximation` для `sample mean` при росте размера выборки?
A`CLT` требует, чтобы исходные данные имели `normal distribution`, иначе приближение невозможно
BДаже при ненормальных данных `CLT` часто делает `sampling distribution` `sample mean` ближе к `normal distribution` при достаточно большой выборке
C`LLN` говорит, что распределение исходных данных станет `normal distribution` при большом размере выборки
D`joint distribution` времени и пользователей всегда имеет `normal distribution`
Ответ: `CLT` относится к `sampling distribution` `sample mean`, поэтому исходные данные не обязаны иметь `normal distribution`.

Когда вы берёте `sample mean` по многим наблюдениям, вы фактически суммируете много вкладов и делите на размер выборки. Это и приводит к `normal approximation` распределения оценки среднего, даже если исходные значения асимметричны. Но при небольшом размере выборки и сильных выбросах приближение может быть хуже.

13Событие `A` — клик по рекламе, событие `B` — покупка. Какое утверждение лучше всего соответствует `independence` между `A` и `B`?
A`P(A|B)` заметно больше `P(A)`
B`P(A∩B)=P(A)*P(B)`
C`P(A∩B)=P(A)+P(B)`
DЕсли произошло `A`, то `B` обязательно произойдёт
Ответ: При `independence` знание `B` не меняет вероятность `A`, что эквивалентно `P(A∩B)=P(A)*P(B)`.

В `joint distribution` независимость означает, что совместные вероятности «раскладываются» через маргинальные. Эквивалентная форма — `P(A|B)=P(A)`, то есть условие не меняет базу для `A`. Если `P(A|B)` заметно отличается от `P(A)`, то `independence` нарушается.

14В продуктовой аналитике вы смотрите одновременно `platform` (ios/android) и факт `purchase` (да/нет). Что описывает `joint distribution` (совместное распределение) этих двух признаков?
AДоли пользователей в каждой комбинации `platform` и `purchase`
BТолько общую долю `purchase` без разбивки по `platform`, то есть `marginal distribution` (маргинальное распределение) по `purchase`
CТолько распределение `platform` без учёта `purchase`, то есть `marginal distribution` (маргинальное распределение) по `platform`
DРазницу `sample mean` чека между платформами
Ответ: `Joint distribution` показывает частоты для пар значений двух `random variables`.

Если вы знаете только `marginal distribution` (маргинальное распределение) каждого признака, вы не знаете, как часто они встречаются вместе. `Joint distribution` даёт доли для всех пар значений и позволяет увидеть структуру совместных комбинаций. Это основа для обсуждения связи и проверки `independence`.

15Вы 100 раз подбрасываете монету и получаете долю орлов 0.62, а при 10000 подбрасываниях доля 0.51. Какая идея лучше всего объясняет, почему при увеличении числа бросков доля обычно становится ближе к истинной вероятности?
A`LLN`: `sample mean` доли сходится к истинной вероятности при росте числа повторений
B`CLT`: исходные подбрасывания становятся `normal distribution` при большом числе повторений
C`joint distribution`: монета начинает зависеть от предыдущих бросков
D`normal approximation`: гарантирует точное совпадение с истинной вероятностью
Ответ: `LLN` объясняет, почему `sample mean` доли стабилизируется около истинной вероятности при большом числе испытаний.

При 100 испытаниях случайная вариация ещё велика, и доля может заметно отклоняться. При 10000 испытаниях влияние одного исхода мало, и результат более устойчив. Это не гарантирует точного совпадения, но делает большие отклонения менее вероятными.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Теория вероятностей

Теорема БайесаУсловная вероятностьНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСлучайные величины: основыМножества и события