Условная вероятность P(A|B) — основа для понимания зависимости событий и байесовского обновления. На собеседовании дают задачи, где нужно правильно обусловить вероятность — например, какова вероятность второго орла, если первый уже выпал. Ошибки в условной вероятности ведут к неверным выводам в любом анализе.
Здесь возврат возможен по двум веткам, и каждая ветка взвешивается своей долей клиентов. Вклад карты: 70% умножить на 1%, вклад наличных: 30% умножить на 3%. Складывая вклады, получаем общую вероятность возврата 1.6%.
`P(B|A)` описывает, как часто тест положительный у больных, но это другой вопрос. Когда вы уже увидели результат теста, вас интересует `P(A|B)`: какова вероятность болезни среди людей с положительным результатом. Тут часто срабатывает ловушка интуиции: высокий `P(B|A)` не гарантирует высокий `P(A|B)` без учёта `base rate` болезни.
Условие `subscribed` означает, что база — только подписавшиеся, их 200. Среди них email-канал встречается 120 раз, значит `P(email|subscribed)` равна 120 из 200, то есть 60%. Частая ошибка — вместо этого считать `P(subscribed|email)`, у которой другая база.
Дефект может прийти с любой линии, поэтому нужно сравнить вклад каждой линии в совместное событие `D∩B` и `D∩A`. У линии `B` дефектов меньше в абсолюте из-за меньшего выпуска, но дефектность выше, поэтому итоговая `P(B|D)` может оказаться больше 30%. В этом примере дефектный элемент чаще приходит с линии `B`, примерно в 56% случаев.
Даже хороший классификатор может давать много ложных флагов, если мошенничество редкое. При `P(fraud)=0.01` большинство транзакций честные, и 5% ложных срабатываний на большой базе дают много сигналов. Поэтому среди флагнутых доля реального мошенничества получается порядка 15%, а не 90%.
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram