Question 1

Какая запись соответствует вероятности того, что в одном наблюдении произойдут оба события `A` и `B`?

Accepted Answer

Совместное наступление событий описывает `P(A∩B)`, в отличие от условной `P(A|B)`. В `joint distribution` такие вероятности соответствуют ячейкам пересечения событий. Если известны `P(A|B)` и `P(B)`, то можно перейти к совместной вероятности по формуле `P(A∩B)=P(A|B)*P(B)`. Это удобно при построении таблиц и деревьев событий.

Question 2

В `joint distribution` по `platform` и `purchase` какая величина соответствует доле пользователей, которые одновременно `platform=ios` и совершили `purchase`?

Accepted Answer

Комбинация двух условий в `joint distribution` соответствует совместной вероятности `P(A∩B)`. Совместная вероятность — это доля наблюдений, где выполняются оба условия одновременно. В таблице `joint distribution` это конкретная ячейка пересечения `platform` и `purchase`. Если у вас есть `P(purchase|platform=ios)` и `P(platform=ios)`, то её можно получить по формуле `P(platform=ios ∩ purchase)=P(purchase|platform=ios)*P(platform=ios)`.

Question 3

Вы считаете число кликов за день как `sum` по пользователям: каждый пользователь либо кликнул, либо нет. Почему распределение этой `sum` по дням часто хорошо описывается `normal approximation` при большом трафике?

Accepted Answer

Когда наблюдение — это `sum` многих независимых вкладов, `CLT` объясняет появление `normal approximation`. Каждый пользователь вносит маленький вклад 0 или 1, и таких вкладов много. Суммирование сглаживает индивидуальные различия и делает итоговую `sum` более предсказуемой. Поэтому в аналитике часто используют `normal approximation` для больших сумм и средних.

Question 4

Распределение трат на пользователя сильно скошено: много маленьких чеков и редкие большие. Почему для `sample mean` трат по 5000 пользователям часто работает `normal approximation`?

Accepted Answer

`CLT` делает `sampling distribution` `sample mean` близкой к `normal distribution` при достаточно большой выборке. Исходные данные могут быть ненормальными, но `sample mean` строится через суммирование большого числа вкладов и деление на размер выборки. По `CLT` распределение этой статистики приближается к `normal distribution`, что и оправдывает `normal approximation`. При маленьких выборках и сильных выбросах приближение может быть заметно хуже.

Question 5

У вас метрика конверсии за день оценивается как доля покупок. Почему оценка на 10000 сессиях обычно менее шумная, чем на 100 сессиях?

Accepted Answer

Чем больше наблюдений, тем стабильнее `sample mean` вокруг `expected value`, что соответствует `LLN`. На маленькой выборке случайность может сильно менять долю: одна дополнительная покупка заметно сдвигает результат. На большой выборке вклад одного события намного меньше, поэтому колебания снижаются. Это одна из причин, почему метрики на малом трафике трудно интерпретировать.

Вопросы по теме «Совместные распределения и ЦПТ»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Теория вероятностей