Условная вероятность: вопросы для собеседования (часть 4)

Условная вероятность P(A|B) — основа для понимания зависимости событий и байесовского обновления. На собеседовании дают задачи, где нужно правильно обусловить вероятность — например, какова вероятность второго орла, если первый уже выпал. Ошибки в условной вероятности ведут к неверным выводам в любом анализе.

Теорема БайесаНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСовместные распределения и ЦПТСлучайные величины: основыМножества и события

Вопросы 1620 из 20

16В `probability tree` оплаты: 70% клиентов платят картой, 30% — наличными. При оплате картой возврат случается в 1% случаев, при оплате наличными — в 3% случаев. Чему равна `P(A)`, где `A` — возврат?
A1.6%
B2%
C1%
D3%
Ответ: По `probability tree` общую `P(A)` считают как сумму веток `P(A|B_i) * P(B_i)`.

Здесь возврат возможен по двум веткам, и каждая ветка взвешивается своей долей клиентов. Вклад карты: 70% умножить на 1%, вклад наличных: 30% умножить на 3%. Складывая вклады, получаем общую вероятность возврата 1.6%.

17Событие `A` — человек болен, событие `B` — тест положительный. Какая запись соответствует вопросу: какова вероятность болезни при положительном тесте?
A`P(B|A)`
B`P(A|B)`
C`P(A∩B)`
D`P(A)`
Ответ: Вопрос формата «`A` при условии `B`» — это `P(A|B)`, а не `P(B|A)`.

`P(B|A)` описывает, как часто тест положительный у больных, но это другой вопрос. Когда вы уже увидели результат теста, вас интересует `P(A|B)`: какова вероятность болезни среди людей с положительным результатом. Тут часто срабатывает ловушка интуиции: высокий `P(B|A)` не гарантирует высокий `P(A|B)` без учёта `base rate` болезни.

18В `contingency table` по каналу и подписке: всего 200 подписавшихся пользователей, из них 120 пришли из email, 80 — из ads; среди не подписавшихся 280 пришли из email и 520 — из ads. Чему равна `P(email|subscribed)`?
A30%
B60%
C12%
D80%
Ответ: Чтобы найти `P(B|A)` в `contingency table`, делят число `A∩B` на общий размер группы, заданной условием `A`.

Условие `subscribed` означает, что база — только подписавшиеся, их 200. Среди них email-канал встречается 120 раз, значит `P(email|subscribed)` равна 120 из 200, то есть 60%. Частая ошибка — вместо этого считать `P(subscribed|email)`, у которой другая база.

19Две линии выпускают детали: линия `A` делает 70% деталей, линия `B` делает 30%. Доля дефектов: `P(D|A)=0.01`, `P(D|B)=0.03`, где `D` — дефект. Какова `P(B|D)`?
AОколо 56%
BОколо 30%
CОколо 3%
DОколо 70%
Ответ: Чтобы найти `P(B|D)`, нужно учесть `base rate` линий и условные вероятности `P(D|A)` и `P(D|B)`.

Дефект может прийти с любой линии, поэтому нужно сравнить вклад каждой линии в совместное событие `D∩B` и `D∩A`. У линии `B` дефектов меньше в абсолюте из-за меньшего выпуска, но дефектность выше, поэтому итоговая `P(B|D)` может оказаться больше 30%. В этом примере дефектный элемент чаще приходит с линии `B`, примерно в 56% случаев.

20Антифрод ставит флаг на транзакции: `P(flag|fraud)=0.9`, `P(flag|¬fraud)=0.05`, а `base rate` мошенничества `P(fraud)=0.01`. Какой порядок величины у `P(fraud|flag)`?
AОколо 90%
BОколо 15%
CОколо 5%
DОколо 1%
Ответ: Высокое `P(flag|fraud)` не означает высокое `P(fraud|flag)`, потому что важен `base rate` `P(fraud)`.

Даже хороший классификатор может давать много ложных флагов, если мошенничество редкое. При `P(fraud)=0.01` большинство транзакций честные, и 5% ложных срабатываний на большой базе дают много сигналов. Поэтому среди флагнутых доля реального мошенничества получается порядка 15%, а не 90%.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Теория вероятностей

Теорема БайесаНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСовместные распределения и ЦПТСлучайные величины: основыМножества и события