Question 1

Вы знаете `P(A)` и `P(B)` для двух событий в продукте: просмотр карточки и покупка. Зачем может понадобиться `joint distribution`, если уже известны обе маргинальные вероятности?

Accepted Answer

Без `joint distribution` нельзя восстановить `P(A∩B)` и проверить связь или `independence` между событиями. Маргинальные вероятности `P(A)` и `P(B)` показывают, как часто встречается каждое событие по отдельности, но не говорят, встречаются ли они вместе у одних и тех же пользователей. `joint distribution` содержит вероятности для комбинаций и позволяет считать `P(A∩B)` и условные вероятности вроде `P(A|B)`. Поэтому совместная таблица часто важнее отдельных долей.

Question 2

Данные по времени выполнения задачи сильно скошены и имеют длинный хвост. Какое утверждение наиболее корректно про `normal approximation` для `sample mean` при росте размера выборки?

Accepted Answer

`CLT` относится к `sampling distribution` `sample mean`, поэтому исходные данные не обязаны иметь `normal distribution`. Когда вы берёте `sample mean` по многим наблюдениям, вы фактически суммируете много вкладов и делите на размер выборки. Это и приводит к `normal approximation` распределения оценки среднего, даже если исходные значения асимметричны. Но при небольшом размере выборки и сильных выбросах приближение может быть хуже.

Question 3

Событие `A` — клик по рекламе, событие `B` — покупка. Какое утверждение лучше всего соответствует `independence` между `A` и `B`?

Accepted Answer

При `independence` знание `B` не меняет вероятность `A`, что эквивалентно `P(A∩B)=P(A)*P(B)`. В `joint distribution` независимость означает, что совместные вероятности «раскладываются» через маргинальные. Эквивалентная форма — `P(A|B)=P(A)`, то есть условие не меняет базу для `A`. Если `P(A|B)` заметно отличается от `P(A)`, то `independence` нарушается.

Question 4

В продуктовой аналитике вы смотрите одновременно `platform` (ios/android) и факт `purchase` (да/нет). Что описывает `joint distribution` (совместное распределение) этих двух признаков?

Accepted Answer

`Joint distribution` показывает частоты для пар значений двух `random variables`. Если вы знаете только `marginal distribution` (маргинальное распределение) каждого признака, вы не знаете, как часто они встречаются вместе. `Joint distribution` даёт доли для всех пар значений и позволяет увидеть структуру совместных комбинаций. Это основа для обсуждения связи и проверки `independence`.

Question 5

Вы 100 раз подбрасываете монету и получаете долю орлов 0.62, а при 10000 подбрасываниях доля 0.51. Какая идея лучше всего объясняет, почему при увеличении числа бросков доля обычно становится ближе к истинной вероятности?

Accepted Answer

`LLN` объясняет, почему `sample mean` доли стабилизируется около истинной вероятности при большом числе испытаний. При 100 испытаниях случайная вариация ещё велика, и доля может заметно отклоняться. При 10000 испытаниях влияние одного исхода мало, и результат более устойчив. Это не гарантирует точного совпадения, но делает большие отклонения менее вероятными.

Совместные распределения и ЦПТ: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Теория вероятностей