Про спам-фильтр сказали: `P(flag|spam)` равна 99%. Менеджер делает вывод, что `P(spam|flag)` тоже 99%. Что нужно уточнить, чтобы корректно перейти от `P(B|A)` к `P(A|B)` по формуле Байеса?

Question

Карьерник · Accepted Answer

Правильный ответ: Нужны априорная вероятность `P(spam)` (базовая частота) и вероятность ложноположительного срабатывания `P(flag|not spam)` для расчёта `P(flag)`. `P(B|A)` не превращается в `P(A|B)` без априорной вероятности и доли ложноположительных в знаменателе `P(B)`. Менеджер перепутал направление условной вероятности: `P(flag|spam)` описывает, как фильтр ведёт себя на спаме. Для `P(spam|flag)` нужно учитывать, как часто спам встречается (базовая частота) и как часто фильтр ошибается на не-спаме (ложноположительный результат). Без этих данных оценка апостериорной вероятности легко становится сильно завышенной. Размер обучающей выборки сюда не входит, а `P(B)` нельзя получить как 1 − `P(A)` — это разные события.

Про спам-фильтр сказали: `P(flag|spam)` равна 99%. Менеджер делает вывод, что `P(spam|flag)` тоже 99%. Что нужно уточнить, чтобы корректно перейти от `P(B|A)` к `P(A|B)` по формуле Байеса?

Разбор

Ещё вопросы по теме «Теорема Байеса»

Про спам-фильтр сказали: P(flag|spam) равна 99%. Менеджер делает вывод, что P(spam|flag) тоже 99%. Что нужно уточнить, чтобы корректно перейти от P(B|A) к P(A|B) по формуле Байеса?

Разбор

Ещё вопросы по теме «Теорема Байеса»

Про спам-фильтр сказали: `P(flag|spam)` равна 99%. Менеджер делает вывод, что `P(spam|flag)` тоже 99%. Что нужно уточнить, чтобы корректно перейти от `P(B|A)` к `P(A|B)` по формуле Байеса?