Про спам-фильтр сказали: P(flag|spam) равна 99%. Менеджер делает вывод, что P(spam|flag) тоже 99%. Что нужно уточнить, чтобы корректно перейти от P(B|A) к P(A|B) по формуле Байеса?

AТолько P(B) и P(A), потому что P(B) можно получить как 1 − P(A), и этого достаточно, чтобы перевернуть условную вероятность
BТолько размер обучающей выборки N и точность accuracy, потому что объём данных полностью определяет апостериорную вероятность P(spam|flag)
CТолько P(B|A) и P(A), потому что чувствительности фильтра и базовой доли спама достаточно для расчёта P(A|B) без других компонент
DНужны априорная вероятность P(spam) (базовая частота) и вероятность ложноположительного срабатывания P(flag|not spam) для расчёта P(flag)
Правильный ответ. P(B|A) не превращается в P(A|B) без априорной вероятности и доли ложноположительных в знаменателе P(B).

Разбор

Менеджер перепутал направление условной вероятности: P(flag|spam) описывает, как фильтр ведёт себя на спаме. Для P(spam|flag) нужно учитывать, как часто спам встречается (базовая частота) и как часто фильтр ошибается на не-спаме (ложноположительный результат). Без этих данных оценка апостериорной вероятности легко становится сильно завышенной. Размер обучающей выборки сюда не входит, а P(B) нельзя получить как 1 − P(A) — это разные события.

Проверь себя · 1/3разбор после ответа
Пусть A — болезнь, B — положительный тест. Известно: P(A) = 0.01, P(B|A) = 0.9, P(B|not A) = 0.05. Примерно чему равно P(A|B)?
Тренировать статистику в Telegram

Ещё вопросы по теме «Теорема Байеса»