Question 1

В антифроде событие A — транзакция мошенническая, событие B — сработал алерт. Какая формула корректно выражает `P(B)` через формулу полной вероятности?

Accepted Answer

`P(B)` по формуле полной вероятности учитывает оба сценария: и A, и not A. Алерт может сработать как при мошенничестве, так и при обычных транзакциях. Поэтому вклад дают и истинные срабатывания `P(B|A) * P(A)`, и ложные срабатывания через `P(B|not A) * P(not A)`. Если забыть второе слагаемое, апостериорная вероятность мошенничества будет завышена.

Question 2

В задаче диагностики пусть A — наличие болезни, а B — положительный тест. Какое утверждение лучше всего объясняет разницу между `P(A|B)` и `P(B|A)`?

Accepted Answer

Условные вероятности `P(A|B)` и `P(B|A)` отвечают на разные вопросы и в общем случае не равны. `P(болезнь|тест+)` — это то, что обычно интересно пациенту, а `P(тест+|болезнь)` описывает характеристику самого теста. Связь между ними задаёт формула Байеса: `P(A|B)=P(B|A)·P(A)/P(B)`. Поэтому без априорной вероятности `P(A)` и корректного расчёта безусловной `P(B)` нельзя «перевернуть» условие. Утверждать, что `P(A|B)` всегда больше `P(B|A)`, тоже неверно — соотношение зависит от исходных вероятностей.

Question 3

Вы хотите найти `P(fraud | alert)` по формуле Байеса. Какой вариант корректно описывает расчёт знаменателя `P(alert)`?

Accepted Answer

Знаменатель `P(B)` в формуле Байеса считается по формуле полной вероятности через события A и not A. Для алерта B есть как минимум два пути: истинное срабатывание при A (мошенничество) и ложное срабатывание при not A. Поэтому `P(B)` складывается из двух слагаемых: `P(B | A) * P(A) + P(B | not A) * P(not A)`. Этот шаг часто пропускают, и тогда путают `P(B | A)` с `P(A | B)` — в этом и состоит классическая ошибка интерпретации формулы Байеса.

Question 4

Аналитик вычисляет вероятность алерта как `P(B) = P(B|A)P(A)` и получает слишком маленькое значение. Что именно он забыл учесть в формуле полной вероятности?

Accepted Answer

По формуле полной вероятности `P(B)` включает и истинные срабатывания, и ложноположительные на событии не-A. Даже редкое событие A может давать малую часть всех срабатываний, потому что событие не-A встречается очень часто. Поэтому второе слагаемое `P(B|not A)P(not A)` нередко доминирует в полном расчёте `P(B)`. Пропуск этого слагаемого занижает `P(B)` и приводит к завышению апостериорной `P(A|B)` при дальнейшем использовании формулы Байеса.

Question 5

Модель антифрода имеет `P(alert|fraud)` 95%. Можно ли из этого числа напрямую сделать вывод о `P(fraud|alert)`?

Accepted Answer

Знание только `P(B|A)` не определяет `P(A|B)` без априорной вероятности и доли ложных срабатываний `P(B|not A)` в знаменателе. `P(alert|fraud)` показывает, как часто срабатывает алерт при мошенничестве, но это не доля мошенничества среди алертов. Для апостериорной `P(fraud|alert)` критично знать априорную `P(fraud)` и долю ложных срабатываний `P(alert|not fraud)`. При редком мошенничестве даже хороший детектор может выдавать много ложных тревог: 1 − 95% даёт лишь долю пропущенных, а не апостериор. Большое количество алертов само по себе не делает их точными.

Теорема Байеса: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Теория вероятностей