Question 1

В `probability tree` оплаты: 70% клиентов платят картой, 30% — наличными. При оплате картой возврат случается в 1% случаев, при оплате наличными — в 3% случаев. Чему равна `P(A)`, где `A` — возврат?

Accepted Answer

По `probability tree` общую `P(A)` считают как сумму веток `P(A|B_i) * P(B_i)`. Здесь возврат возможен по двум веткам, и каждая ветка взвешивается своей долей клиентов. Вклад карты: 70% умножить на 1%, вклад наличных: 30% умножить на 3%. Складывая вклады, получаем общую вероятность возврата 1.6%.

Question 2

Событие `A` — человек болен, событие `B` — тест положительный. Какая запись соответствует вопросу: какова вероятность болезни при положительном тесте?

Accepted Answer

Вопрос формата «`A` при условии `B`» — это `P(A|B)`, а не `P(B|A)`. `P(B|A)` описывает, как часто тест положительный у больных, но это другой вопрос. Когда вы уже увидели результат теста, вас интересует `P(A|B)`: какова вероятность болезни среди людей с положительным результатом. Тут часто срабатывает ловушка интуиции: высокий `P(B|A)` не гарантирует высокий `P(A|B)` без учёта `base rate` болезни.

Question 3

В `contingency table` по каналу и подписке: всего 200 подписавшихся пользователей, из них 120 пришли из email, 80 — из ads; среди не подписавшихся 280 пришли из email и 520 — из ads. Чему равна `P(email|subscribed)`?

Accepted Answer

Чтобы найти `P(B|A)` в `contingency table`, делят число `A∩B` на общий размер группы, заданной условием `A`. Условие `subscribed` означает, что база — только подписавшиеся, их 200. Среди них email-канал встречается 120 раз, значит `P(email|subscribed)` равна 120 из 200, то есть 60%. Частая ошибка — вместо этого считать `P(subscribed|email)`, у которой другая база.

Question 4

Две линии выпускают детали: линия `A` делает 70% деталей, линия `B` делает 30%. Доля дефектов: `P(D|A)=0.01`, `P(D|B)=0.03`, где `D` — дефект. Какова `P(B|D)`?

Accepted Answer

Чтобы найти `P(B|D)`, нужно учесть `base rate` линий и условные вероятности `P(D|A)` и `P(D|B)`. Дефект может прийти с любой линии, поэтому нужно сравнить вклад каждой линии в совместное событие `D∩B` и `D∩A`. У линии `B` дефектов меньше в абсолюте из-за меньшего выпуска, но дефектность выше, поэтому итоговая `P(B|D)` может оказаться больше 30%. В этом примере дефектный элемент чаще приходит с линии `B`, примерно в 56% случаев.

Question 5

Антифрод ставит флаг на транзакции: `P(flag|fraud)=0.9`, `P(flag|¬fraud)=0.05`, а `base rate` мошенничества `P(fraud)=0.01`. Какой порядок величины у `P(fraud|flag)`?

Accepted Answer

Высокое `P(flag|fraud)` не означает высокое `P(fraud|flag)`, потому что важен `base rate` `P(fraud)`. Даже хороший классификатор может давать много ложных флагов, если мошенничество редкое. При `P(fraud)=0.01` большинство транзакций честные, и 5% ложных срабатываний на большой базе дают много сигналов. Поэтому среди флагнутых доля реального мошенничества получается порядка 15%, а не 90%.

Условная вероятность: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Теория вероятностей