Теорема Байеса: вопросы для собеседования (часть 2)

Теорема Байеса — одна из самых популярных тем на собеседовании, потому что проверяет интуицию о вероятности. Классические задачи: болезнь и тест, спам-фильтр, обновление вероятности при новых данных. Интервьюеры ценят умение рассуждать пошагово и не путать P(A|B) с P(B|A).

Условная вероятностьНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСовместные распределения и ЦПТСлучайные величины: основыМножества и события

Вопросы 610 из 20

6В антифроде событие A — транзакция мошенническая, событие B — сработал алерт. Какая формула корректно выражает расчёт `P(B)` по полной вероятности?
A`P(B)=P(B|A)`
B`P(B)=P(A|B)P(B)`
C`P(B)=P(B|A)P(A)`
D`P(B)=P(B|A)P(A)+P(B|not A)P(not A)`
Ответ: `P(B)` в `Bayes` считается по полной вероятности, учитывая и A, и not A.

Алерт может сработать как при мошенничестве, так и при обычных транзакциях. Поэтому вклад дают и истинные срабатывания `P(B|A)P(A)`, и `false positive` через `P(B|not A)P(not A)`. Если забыть второе слагаемое, `posterior` будет завышен.

7В задаче диагностики пусть A означает наличие болезни, а B означает положительный тест. Какое утверждение лучше всего объясняет разницу между `P(A|B)` и `P(B|A)`?
A`P(A|B)` отвечает на вопрос о вероятности болезни при положительном тесте, а `P(B|A)` — о вероятности положительного теста при болезни.
B`P(A|B)` и `P(B|A)` — одно и то же, просто записано по-разному.
C`P(A|B)` всегда больше `P(B|A)`, потому что условие B уточняет информацию.
D`P(A|B)` можно определить, зная только `P(B|A)`, без `prior` (априорная вероятность) и `base rate` (базовая частота событий).
Ответ: Условные вероятности `P(A|B)` и `P(B|A)` отвечают на разные вопросы и обычно не равны.

Например, `P(болезнь|тест+)` — это то, что обычно интересно пациенту, а `P(тест+|болезнь)` описывает характеристику теста. Связь между ними задаёт `Bayes`: `P(A|B)=P(B|A)P(A)/P(B)`. Поэтому без `prior` (априорная вероятность) `P(A)` и корректного расчёта `P(B)` нельзя «перевернуть» условие.

8Вы хотите найти `P(fraud|alert)` по `Bayes`. Какой вариант корректно описывает расчёт знаменателя `P(alert)`?
A`P(alert)=P(fraud|alert)P(alert)`
B`P(alert)=P(alert|fraud)P(fraud)+P(alert|not fraud)P(not fraud)`
C`P(alert)=P(alert|fraud)`
D`P(alert)=P(fraud)+P(alert)`
Ответ: Знаменатель `P(B)` в `Bayes` считается по формуле полной вероятности через A и not A.

Для алерта B есть как минимум два пути: истинное срабатывание при A и `false positive` при not A. Поэтому `P(B)` складывается из двух слагаемых. Этот шаг часто пропускают, и тогда путают `P(B|A)` с `P(A|B)`.

9Аналитик вычисляет вероятность алерта как `P(B)=P(B|A)P(A)` и получает слишком маленькое значение. Что именно он забыл учесть в формуле полной вероятности?
AВклад `false positive` (ложноположительный результат): `P(B|not A)P(not A)`.
BНужно заменить `P(B)` на `P(A|B)` и всё станет правильно.
CНужно умножить `P(B)` на `prior`, иначе `Bayes` не работает.
DНужно считать только `P(A)` и игнорировать `P(B|A)`.
Ответ: По полной вероятности `P(B)` включает и истинные срабатывания, и `false positive` (ложноположительный результат) на not A.

Даже редкое событие A может давать малую часть всех срабатываний, потому что not A встречается очень часто. Поэтому второе слагаемое `P(B|not A)P(not A)` нередко доминирует в `P(B)`. Пропуск этого слагаемого приводит к завышению `posterior` при расчёте `P(A|B)`.

10Модель антифрода имеет `P(alert|fraud)` 95%. Можно ли из этого числа напрямую сделать вывод о `P(fraud|alert)`?
AДа, это одно и то же, значит `P(fraud|alert)` тоже 95%.
BНет, без `prior` (априорная вероятность) `P(fraud)` и `P(alert|not fraud)` (то есть `false positive` (ложноположительный результат)) нельзя определить `P(fraud|alert)`.
CДа, достаточно взять 1 − 95%, и получится `P(fraud|alert)`.
DДа, если алертов в системе много, то `P(fraud|alert)` автоматически становится высоким.
Ответ: Знание только `P(B|A)` не определяет `P(A|B)` без `prior` (априорная вероятность) и `P(B|not A)` в знаменателе `P(B)`.

`P(alert|fraud)` описывает, как часто алерт срабатывает при мошенничестве, но это не то же самое, что доля мошенничества среди алертов. Для `posterior` `P(fraud|alert)` критичен `base rate` `P(fraud)` и уровень `false positive` (ложноположительный результат) `P(alert|not fraud)`. При редком мошенничестве даже хороший детектор может выдавать много ложных тревог.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Теория вероятностей

Условная вероятностьНепрерывные распределенияКомбинаторикаДискретные распределенияМатематическое ожидание и дисперсияНезависимость событийСовместные распределения и ЦПТСлучайные величины: основыМножества и события