Вопросы по теме «Совместные распределения и ЦПТ»
Совместные распределения, маргинальные распределения, центральная предельная теорема — мост между теорией вероятностей и статистикой. ЦПТ объясняет, почему нормальное распределение так часто встречается и почему работает z-тест. На собеседовании просят сформулировать ЦПТ и привести пример её применения.
Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.
Вопросы 1–5 из 20
1Какая запись соответствует вероятности того, что в одном наблюдении произойдут оба события `A` и `B`?
A`P(A|B)`
B`P(B|A)`
C`P(A)+P(B)`
D`P(A∩B)`
Ответ: Совместное наступление событий описывает `P(A∩B)`, в отличие от условной `P(A|B)`.
В `joint distribution` такие вероятности соответствуют ячейкам пересечения событий. Если известны `P(A|B)` и `P(B)`, то можно перейти к совместной вероятности по формуле `P(A∩B)=P(A|B)*P(B)`. Это удобно при построении таблиц и деревьев событий.
2В `joint distribution` по `platform` и `purchase` какая величина соответствует доле пользователей, которые одновременно `platform=ios` и совершили `purchase`?
A`P(platform=ios)`
B`P(purchase|platform=ios)`
C`P(platform=ios|purchase)`
D`P(platform=ios ∩ purchase)`
Ответ: Комбинация двух условий в `joint distribution` соответствует совместной вероятности `P(A∩B)`.
Совместная вероятность — это доля наблюдений, где выполняются оба условия одновременно. В таблице `joint distribution` это конкретная ячейка пересечения `platform` и `purchase`. Если у вас есть `P(purchase|platform=ios)` и `P(platform=ios)`, то её можно получить по формуле `P(platform=ios ∩ purchase)=P(purchase|platform=ios)*P(platform=ios)`.
3Вы считаете число кликов за день как `sum` по пользователям: каждый пользователь либо кликнул, либо нет. Почему распределение этой `sum` по дням часто хорошо описывается `normal approximation` при большом трафике?
AПотому что это `sum` большого числа независимых вкладов, и по `CLT` она близка к `normal distribution`
BПотому что `LLN` делает каждый клик `normal distribution`
CПотому что `joint distribution` любых событий по определению имеет `normal distribution`
DПотому что `normal approximation` всегда точна для любых объёмов данных
Ответ: Когда наблюдение — это `sum` многих независимых вкладов, `CLT` объясняет появление `normal approximation`.
Каждый пользователь вносит маленький вклад 0 или 1, и таких вкладов много. Суммирование сглаживает индивидуальные различия и делает итоговую `sum` более предсказуемой. Поэтому в аналитике часто используют `normal approximation` для больших сумм и средних.
4Распределение трат на пользователя сильно скошено: много маленьких чеков и редкие большие. Почему для `sample mean` трат по 5000 пользователям часто работает `normal approximation`?
AПотому что по `CLT` `sampling distribution` `sample mean` становится близка к `normal distribution` при достаточно большой выборке
BПотому что `LLN` делает исходные траты `normal distribution`
CПотому что `joint distribution` трат и пользователей всегда имеет `normal distribution`
DПотому что `normal approximation` всегда точна независимо от размера выборки
Ответ: `CLT` делает `sampling distribution` `sample mean` близкой к `normal distribution` при достаточно большой выборке.
Исходные данные могут быть ненормальными, но `sample mean` строится через суммирование большого числа вкладов и деление на размер выборки. По `CLT` распределение этой статистики приближается к `normal distribution`, что и оправдывает `normal approximation`. При маленьких выборках и сильных выбросах приближение может быть заметно хуже.
5У вас метрика конверсии за день оценивается как доля покупок. Почему оценка на 10000 сессиях обычно менее шумная, чем на 100 сессиях?
AПотому что `CLT` заставляет конверсию стремиться к 50% независимо от продукта
BПотому что при большем размере выборки `sample mean` (доля) ближе к `expected value` и реже сильно отклоняется, что соответствует интуиции `LLN`
CПотому что `joint distribution` покупок и сессий становится фиксированной и перестаёт меняться
DПотому что `normal approximation` делает данные безошибочными
Ответ: Чем больше наблюдений, тем стабильнее `sample mean` вокруг `expected value`, что соответствует `LLN`.
На маленькой выборке случайность может сильно менять долю: одна дополнительная покупка заметно сдвигает результат. На большой выборке вклад одного события намного меньше, поэтому колебания снижаются. Это одна из причин, почему метрики на малом трафике трудно интерпретировать.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Теория вероятностей