Вопросы по теме «Совместные распределения и ЦПТ»

Проверь себя · 1/3разбор после ответа
Событие A — клик по рекламе, событие B — покупка. Какое утверждение лучше всего соответствует independence между A и B?

Совместные распределения, маргинальные распределения, центральная предельная теорема — мост между теорией вероятностей и статистикой. ЦПТ объясняет, почему нормальное распределение так часто встречается и почему работает z-тест. На собеседовании просят сформулировать ЦПТ и привести пример её применения.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Теорема БайесаУсловная вероятностьНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСлучайные величины: основыМножества и события

Вопросы 15 из 20

1Какая запись соответствует вероятности того, что в одном наблюдении произойдут оба события `A` и `B`?
A`P(A|B)`
B`P(B|A)`
C`P(A)+P(B)`
D`P(A∩B)`
Ответ: Совместное наступление событий описывает `P(A∩B)`, в отличие от условной `P(A|B)`.

В `joint distribution` такие вероятности соответствуют ячейкам пересечения событий. Если известны `P(A|B)` и `P(B)`, то можно перейти к совместной вероятности по формуле `P(A∩B)=P(A|B)*P(B)`. Это удобно при построении таблиц и деревьев событий.

Подробный разбор →
2В `joint distribution` по `platform` и `purchase` какая величина соответствует доле пользователей, которые одновременно `platform=ios` и совершили `purchase`?
A`P(platform=ios)`
B`P(purchase|platform=ios)`
C`P(platform=ios|purchase)`
D`P(platform=ios ∩ purchase)`
Ответ: Комбинация двух условий в `joint distribution` соответствует совместной вероятности `P(A∩B)`.

Совместная вероятность — это доля наблюдений, где выполняются оба условия одновременно. В таблице `joint distribution` это конкретная ячейка пересечения `platform` и `purchase`. Если у вас есть `P(purchase|platform=ios)` и `P(platform=ios)`, то её можно получить по формуле `P(platform=ios ∩ purchase)=P(purchase|platform=ios)*P(platform=ios)`.

Подробный разбор →
3Вы считаете число кликов за день как `sum` по пользователям: каждый пользователь либо кликнул, либо нет. Почему распределение этой `sum` по дням часто хорошо описывается `normal approximation` при большом трафике?
AПотому что это `sum` большого числа независимых вкладов, и по `CLT` она близка к `normal distribution`
BПотому что `LLN` делает каждый клик `normal distribution`
CПотому что `joint distribution` любых событий по определению имеет `normal distribution`
DПотому что `normal approximation` всегда точна для любых объёмов данных
Ответ: Когда наблюдение — это `sum` многих независимых вкладов, `CLT` объясняет появление `normal approximation`.

Каждый пользователь вносит маленький вклад 0 или 1, и таких вкладов много. Суммирование сглаживает индивидуальные различия и делает итоговую `sum` более предсказуемой. Поэтому в аналитике часто используют `normal approximation` для больших сумм и средних.

Подробный разбор →
4Распределение трат на пользователя сильно скошено: много маленьких чеков и редкие большие. Почему для `sample mean` трат по 5000 пользователям часто работает `normal approximation`?
AПотому что по `CLT` `sampling distribution` `sample mean` становится близка к `normal distribution` при достаточно большой выборке
BПотому что `LLN` делает исходные траты `normal distribution`
CПотому что `joint distribution` трат и пользователей всегда имеет `normal distribution`
DПотому что `normal approximation` всегда точна независимо от размера выборки
Ответ: `CLT` делает `sampling distribution` `sample mean` близкой к `normal distribution` при достаточно большой выборке.

Исходные данные могут быть ненормальными, но `sample mean` строится через суммирование большого числа вкладов и деление на размер выборки. По `CLT` распределение этой статистики приближается к `normal distribution`, что и оправдывает `normal approximation`. При маленьких выборках и сильных выбросах приближение может быть заметно хуже.

Подробный разбор →
5У вас метрика конверсии за день оценивается как доля покупок. Почему оценка на 10000 сессиях обычно менее шумная, чем на 100 сессиях?
AПотому что `CLT` заставляет конверсию стремиться к 50% независимо от продукта
BПотому что при большем размере выборки `sample mean` (доля) ближе к `expected value` и реже сильно отклоняется, что соответствует интуиции `LLN`
CПотому что `joint distribution` покупок и сессий становится фиксированной и перестаёт меняться
DПотому что `normal approximation` делает данные безошибочными
Ответ: Чем больше наблюдений, тем стабильнее `sample mean` вокруг `expected value`, что соответствует `LLN`.

На маленькой выборке случайность может сильно менять долю: одна дополнительная покупка заметно сдвигает результат. На большой выборке вклад одного события намного меньше, поэтому колебания снижаются. Это одна из причин, почему метрики на малом трафике трудно интерпретировать.

Подробный разбор →
1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать статистику в Telegram

Другие темы: Теория вероятностей

Теорема БайесаУсловная вероятностьНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСлучайные величины: основыМножества и события