Question 1

Событие A редкое: `base rate` (базовая частота событий) 0.1%. Есть два теста с одинаковым `P(B|A)` 90%, но у теста 1 `P(B|not A)` 5%, а у теста 2 `P(B|not A)` 0.5%. После положительного результата какого теста `posterior` (апостериорная вероятность) `P(A|B)` будет выше?

Accepted Answer

При низком `base rate` (базовая частота событий) снижение `false positive` (ложноположительный результат) сильно повышает `posterior` (апостериорная вероятность) после положительного результата. Когда событие редкое, большинство объектов — not A, и именно ошибки на not A формируют много ложных плюсов. Поэтому тест с меньшим `P(B|not A)` даёт более «чистые» положительные результаты. В терминах `Bayes` уменьшается вклад `P(B|not A)P(not A)` в `P(B)`, и `P(A|B)` растёт.

Question 2

Про спам-фильтр сказали: `P(flag|spam)` 99%. Менеджер делает вывод, что `P(spam|flag)` тоже 99%. Что нужно уточнить, чтобы корректно перейти от `P(B|A)` к `P(A|B)` по `Bayes`?

Accepted Answer

`P(B|A)` не превращается в `P(A|B)` без `prior` (априорная вероятность) и `false positive` (ложноположительный результат) компоненты в знаменателе `P(B)`. Менеджер перепутал направление условной вероятности: `P(flag|spam)` описывает, как фильтр ведёт себя на спаме. Для `P(spam|flag)` нужно учитывать, как часто спам встречается (`base rate` (базовая частота событий)) и как часто фильтр ошибается на не-спаме (`false positive` (ложноположительный результат)). Без этих данных оценка `posterior` (апостериорная вероятность) легко становится сильно завышенной.

Question 3

Тест на редкую болезнь имеет высокую чувствительность: `P(test+|disease)=99%`, и низкую долю ложноположительных: `P(test+|¬disease)=1%`. Болезнь встречается у 0.1% людей. Почему `P(disease|test+)` может быть заметно ниже 99%?

Accepted Answer

При редком событии низкий `base rate` (базовая частота событий) делает вклад `false positive` (ложноположительный результат) среди положительных результатов заметным. Даже хороший тест иногда даёт `false positive` (ложноположительный результат) у здоровых. Когда здоровых очень много, число ложных плюсов может превысить число истинных плюсов. Поэтому `posterior` `P(disease|test+)` может оказаться существенно ниже, чем `P(test+|disease)`.

Question 4

Почему в задачах `Bayes` люди часто переоценивают `P(A|B)` после положительного теста, когда слышат, что тест точный на 99%?

Accepted Answer

Типичная ошибка — игнорировать `base rate` (базовая частота событий) и путать `P(B|A)` с `P(A|B)`, не рассчитывая `P(B)` по полной вероятности. Фраза про точность обычно описывает `P(B|A)` и/или вероятность отрицательного результата при not A, но не отвечает напрямую на вопрос о `posterior`. При редком событии большая часть объектов — not A, и даже небольшой `false positive` (ложноположительный результат) даёт много положительных результатов. Поэтому `P(A|B)` может быть неожиданно низким, пока вы не учтёте `prior` и полный расчёт `P(B)`.

Question 5

Пусть A — болезнь, B — положительный тест. Известно: `P(A)` 1%, `P(B|A)` 90%, `P(B|not A)` 5%. Примерно чему равно `P(A|B)`?

Accepted Answer

Теорема Байеса: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Теория вероятностей