Байесовский подход на собеседовании аналитика
Почему байесовский подход спрашивают на собеседованиях
Формула Байеса — один из самых популярных вопросов на собеседовании аналитика. Она проверяет понимание условной вероятности, умение структурировать задачу и способность объяснить результат на интуитивном уровне. Задачи встречаются в двух форматах: классические головоломки (тест на болезнь, монеты) и практические вопросы о байесовском подходе к A/B-тестированию.
Формула Байеса
P(A|B) = P(B|A) * P(A) / P(B)
Разберём каждый компонент:
P(A) — prior (априорная вероятность). Наше убеждение о вероятности события A до получения новых данных. Например, вероятность болезни в популяции до результата теста.
P(B|A) — likelihood (правдоподобие). Вероятность наблюдать данные B, если гипотеза A верна. Например, вероятность положительного теста у больного человека (чувствительность теста).
P(A|B) — posterior (апостериорная вероятность). Обновлённое убеждение после получения данных. Например, вероятность болезни при положительном тесте.
P(B) — evidence (полная вероятность данных). Считается через формулу полной вероятности: P(B) = P(B|A)*P(A) + P(B|не A)*P(не A).
Классическая задача: тест на болезнь
Эта задача встречается на каждом третьем собеседовании. Болезнь встречается у 1% населения. Тест имеет чувствительность 99% (положительный у больных) и специфичность 95% (отрицательный у здоровых). Человек получил положительный результат. Какова вероятность болезни?
Решение по формуле Байеса:
- P(болен) = 0.01 (prior)
- P(+|болен) = 0.99 (likelihood)
- P(+|здоров) = 0.05 (ложноположительный)
- P(+) = 0.99 * 0.01 + 0.05 * 0.99 = 0.0099 + 0.0495 = 0.0594
- P(болен|+) = 0.0099 / 0.0594 = 16.7%
Ключевой инсайт: даже при очень точном тесте вероятность болезни всего 16.7%. Причина — низкий prior (1%). Большинство положительных результатов — ложные. Этот контринтуитивный результат и есть то, что проверяет интервьюер.
На заметку: Если интервьюер даёт задачу на формулу Байеса, начните с определения prior, likelihood и evidence. Запишите формулу, подставьте числа. Не пытайтесь считать в уме — ошибётесь в знаменателе.
Другие классические задачи
Спам-фильтр: письмо содержит слово «акция». P(спам) = 0.3, P(«акция»|спам) = 0.8, P(«акция»|не спам) = 0.1. Какова вероятность спама? Та же формула, тот же подход.
Две монеты: одна честная (50/50), другая с двумя орлами. Случайно выбрана монета, выпал орёл. Вероятность нечестной монеты: prior = 0.5, likelihood = 1.0 vs 0.5. Ответ: 2/3.
Обновление убеждений: posterior одного шага становится prior следующего. Данные постепенно уточняют оценку — это основа байесовского мышления.
Байесовский vs частотный подход
На senior-собеседованиях могут спросить о разнице между подходами. Основные отличия:
Частотный подход — параметр фиксирован, данные случайны. p-value отвечает на вопрос «какова вероятность таких данных при H0?». Нет понятия «вероятность гипотезы». Доверительный интервал — свойство метода, не параметра.
Байесовский подход — параметр случаен (имеет распределение), данные фиксированы. Можно говорить «вероятность того, что конверсия выше 5% — 87%». Credible interval — прямая вероятностная интерпретация. Требует задания prior.
Когда что использовать: частотный подход — стандарт для A/B-тестов в большинстве компаний. Байесовский — когда важна интерпретируемость результата, есть сильный prior или нужно принимать решения последовательно (ранняя остановка теста).
Совет: На собеседовании не противопоставляйте подходы. Скажите, что оба решают задачу статистического вывода, но с разными предпосылками. Выбор зависит от контекста задачи и культуры компании.
Как готовиться
Решите 5-10 задач на формулу Байеса и доведите до автоматизма алгоритм: определить prior, likelihood, посчитать evidence, получить posterior. Разберите base rate fallacy — понимание того, почему низкий prior «перетягивает» даже при высоком likelihood. На middle+ уровне изучите байесовский A/B-тест: ранняя остановка, loss function.
FAQ
Нужно ли junior-аналитику знать байесовский подход?
Формулу Байеса и классические задачи — да, спрашивают даже джуниоров. Байесовские A/B-тесты и MCMC — это уровень middle+. Для junior достаточно уметь решить задачу про тест на болезнь и объяснить, почему результат контринтуитивен.
Чем credible interval отличается от доверительного интервала?
Credible interval — байесовский аналог CI. 95% credible interval означает: «с вероятностью 95% параметр лежит в этом диапазоне». Это ближе к интуитивной интерпретации, чем частотный CI. Но для его построения нужен prior, и результат зависит от выбора prior. Подробнее — в разделе доверительные интервалы.
Как формула Байеса используется на практике?
В рекомендательных системах (обновление предпочтений пользователя), спам-фильтрах, fraud detection, медицинской диагностике. В аналитике — для байесовских A/B-тестов и последовательного принятия решений. Смотрите также примеры вопросов и подготовку к собеседованию.