Теорема Байеса: вопросы для собеседования (часть 4)
Теорема Байеса — одна из самых популярных тем на собеседовании, потому что проверяет интуицию о вероятности. Классические задачи: болезнь и тест, спам-фильтр, обновление вероятности при новых данных. Интервьюеры ценят умение рассуждать пошагово и не путать P(A|B) с P(B|A).
Вопросы 16–20 из 20
16Есть два независимых теста, каждый даёт некоторый `false positive` (ложноположительный результат) и некоторый `P(test+|disease)`. Если оба теста показали плюс, как обычно изменится `posterior` (апостериорная вероятность) `P(disease|++)` по сравнению с `P(disease|+)` после одного плюса?
AОстанется тем же, потому что тесты независимы.
BСтанет меньше, потому что два плюса хуже одного.
CСтанет больше, потому что два независимых плюса дают более сильное подтверждение A.
DНельзя сказать ничего без знания `P(B)`.
Ответ: При независимых доказательствах `posterior` (апостериорная вероятность) обычно растёт, потому что совместное совпадение двух плюсов у not A менее вероятно.
Положительный результат — это наблюдение B, которое переводит `prior` в `posterior` (апостериорная вероятность) через `Bayes`. Второй независимый положительный результат добавляет ещё одно наблюдение и снова обновляет вероятность. Интуитивно: два совпадающих сигнала сложнее объяснить двумя `false positive` (ложноположительный результат), чем одним.
17Тест на событие A имеет ненулевой `false negative` (ложноотрицательный результат) (то есть `P(not B|A)` не равно нулю). После отрицательного результата (not B) какой вывод про `P(A|not B)` корректен?
A`P(A|not B)` всегда равно 0, потому что тест отрицательный.
B`P(A|not B)` равно `P(not B|A)` по определению.
C`P(A|not B)` всегда равно `P(A)`, потому что отрицание не даёт информации.
D`P(A|not B)` нужно считать по `Bayes`, и при высоком `prior` вероятность может оставаться заметной.
Ответ: Отрицательный результат снижает `posterior`, но при существенном `prior` и ненулевом `false negative` (ложноотрицательный результат) вероятность может оставаться не нулевой.
Связь вероятностей задаёт `Bayes`: `P(A|not B)=P(not B|A)P(A)/P(not B)`. Если `false negative` (ложноотрицательный результат) велик или `base rate` высок, отрицательный тест не исключает событие полностью. Поэтому в практике используют повторные тесты или дополнительные признаки, а не один результат.
18В антифроде `base rate` (базовая частота событий) мошенничества `P(fraud)` равен 0.5%. Детектор даёт `P(alert|fraud)` 90% и `P(alert|not fraud)` 2% (`false positive` (ложноположительный результат)). Если алерт сработал, примерно чему равно `P(fraud|alert)`?
AОколо 18%
BОколо 90%
CОколо 2%
DОколо 0.5%
Ответ: Даже при высокой `P(B|A)` низкий `base rate` (базовая частота событий) и ненулевой `false positive` (ложноположительный результат) могут сделать `P(A|B)` умеренным.
Считайте `P(alert)=P(alert|fraud)P(fraud)+P(alert|not fraud)P(not fraud)` и затем применяйте `Bayes`. В примере значительная часть алертов приходит от обычных транзакций, потому что их намного больше. Поэтому `posterior` после алерта заметно ниже, чем `P(alert|fraud)`.
19В каких случаях может выполниться равенство `P(A|B)=P(B|A)` (при `P(A)>0` и `P(B)>0`)?
AКогда `P(A)=P(B)`.
BКогда A и B независимы, потому что независимость всегда делает `P(A|B)` равным `P(B|A)`.
CВсегда, это просто два способа записать одно и то же.
DТолько когда `base rate` события A очень низкий.
Ответ: Из формулы `Bayes` следует, что равенство `P(A|B)=P(B|A)` возможно лишь в особых случаях, например когда `P(A)=P(B)`.
Из `P(A|B)=P(B|A)P(A)/P(B)` видно, что для равенства нужно, чтобы отношение `P(A)/P(B)` было равно 1. Независимость даёт `P(A|B)=P(A)` и `P(B|A)=P(B)`, но это не делает их равными автоматически. Поэтому в реальных задачах обычно нельзя заменять одну условную вероятность другой.
20Алерт B может быть вызван мошенничеством A или независимым сбоем системы E. Почему при оценке `P(A|B)` нельзя опираться только на `P(B|A)`?
AПотому что `Bayes` работает только для одной причины и не применим при нескольких причинах.
BПотому что `P(B|A)` уже автоматически учитывает E и любые другие причины B.
CПотому что при наличии E событие A перестаёт иметь `prior`.
DПотому что `P(B)` должно учитывать все пути появления B (включая E и `false positive` (ложноположительный результат)), иначе `posterior` (апостериорная вероятность) `P(A|B)` будет завышен.
Ответ: В `Bayes` знаменатель `P(B)` должен учитывать все причины появления B, иначе `posterior` (апостериорная вероятность) будет смещён.
Если B может появляться по разным причинам, то B не является однозначным индикатором A. Тогда `P(B)` нужно считать по полной вероятности, добавляя вклад альтернативных причин и `false positive` (ложноположительный результат) на not A. Иначе вы фактически предполагаете, что B почти всегда означает A, что редко верно в продакшене.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Теория вероятностей