Байесовский подход на собеседовании аналитика

Почему байесовский подход спрашивают на собеседованиях

Формула Байеса — один из самых популярных вопросов на собеседовании аналитика. Она проверяет понимание условной вероятности, умение структурировать задачу и способность объяснить результат на интуитивном уровне. Задачи встречаются в двух форматах: классические головоломки (тест на болезнь, монеты) и практические вопросы о байесовском подходе к A/B-тестированию.

Формула Байеса

P(A|B) = P(B|A) * P(A) / P(B)

Разберём каждый компонент:

P(A)prior (априорная вероятность). Наше убеждение о вероятности события A до получения новых данных. Например, вероятность болезни в популяции до результата теста.

P(B|A)likelihood (правдоподобие). Вероятность наблюдать данные B, если гипотеза A верна. Например, вероятность положительного теста у больного человека (чувствительность теста).

P(A|B)posterior (апостериорная вероятность). Обновлённое убеждение после получения данных. Например, вероятность болезни при положительном тесте.

P(B)evidence (полная вероятность данных). Считается через формулу полной вероятности: P(B) = P(B|A)*P(A) + P(B|не A)*P(не A).

Классическая задача: тест на болезнь

Эта задача встречается на каждом третьем собеседовании. Болезнь встречается у 1% населения. Тест имеет чувствительность 99% (положительный у больных) и специфичность 95% (отрицательный у здоровых). Человек получил положительный результат. Какова вероятность болезни?

Решение по формуле Байеса:

  • P(болен) = 0.01 (prior)
  • P(+|болен) = 0.99 (likelihood)
  • P(+|здоров) = 0.05 (ложноположительный)
  • P(+) = 0.99 * 0.01 + 0.05 * 0.99 = 0.0099 + 0.0495 = 0.0594
  • P(болен|+) = 0.0099 / 0.0594 = 16.7%

Ключевой инсайт: даже при очень точном тесте вероятность болезни всего 16.7%. Причина — низкий prior (1%). Большинство положительных результатов — ложные. Этот контринтуитивный результат и есть то, что проверяет интервьюер.

На заметку: Если интервьюер даёт задачу на формулу Байеса, начните с определения prior, likelihood и evidence. Запишите формулу, подставьте числа. Не пытайтесь считать в уме — ошибётесь в знаменателе.

Другие классические задачи

Спам-фильтр: письмо содержит слово «акция». P(спам) = 0.3, P(«акция»|спам) = 0.8, P(«акция»|не спам) = 0.1. Какова вероятность спама? Та же формула, тот же подход.

Две монеты: одна честная (50/50), другая с двумя орлами. Случайно выбрана монета, выпал орёл. Вероятность нечестной монеты: prior = 0.5, likelihood = 1.0 vs 0.5. Ответ: 2/3.

Обновление убеждений: posterior одного шага становится prior следующего. Данные постепенно уточняют оценку — это основа байесовского мышления.

Байесовский vs частотный подход

На senior-собеседованиях могут спросить о разнице между подходами. Основные отличия:

Частотный подход — параметр фиксирован, данные случайны. p-value отвечает на вопрос «какова вероятность таких данных при H0?». Нет понятия «вероятность гипотезы». Доверительный интервал — свойство метода, не параметра.

Байесовский подход — параметр случаен (имеет распределение), данные фиксированы. Можно говорить «вероятность того, что конверсия выше 5% — 87%». Credible interval — прямая вероятностная интерпретация. Требует задания prior.

Когда что использовать: частотный подход — стандарт для A/B-тестов в большинстве компаний. Байесовский — когда важна интерпретируемость результата, есть сильный prior или нужно принимать решения последовательно (ранняя остановка теста).

Совет: На собеседовании не противопоставляйте подходы. Скажите, что оба решают задачу статистического вывода, но с разными предпосылками. Выбор зависит от контекста задачи и культуры компании.

Как готовиться

Решите 5-10 задач на формулу Байеса и доведите до автоматизма алгоритм: определить prior, likelihood, посчитать evidence, получить posterior. Разберите base rate fallacy — понимание того, почему низкий prior «перетягивает» даже при высоком likelihood. На middle+ уровне изучите байесовский A/B-тест: ранняя остановка, loss function.

FAQ

Нужно ли junior-аналитику знать байесовский подход?

Формулу Байеса и классические задачи — да, спрашивают даже джуниоров. Байесовские A/B-тесты и MCMC — это уровень middle+. Для junior достаточно уметь решить задачу про тест на болезнь и объяснить, почему результат контринтуитивен.

Чем credible interval отличается от доверительного интервала?

Credible interval — байесовский аналог CI. 95% credible interval означает: «с вероятностью 95% параметр лежит в этом диапазоне». Это ближе к интуитивной интерпретации, чем частотный CI. Но для его построения нужен prior, и результат зависит от выбора prior. Подробнее — в разделе доверительные интервалы.

Как формула Байеса используется на практике?

В рекомендательных системах (обновление предпочтений пользователя), спам-фильтрах, fraud detection, медицинской диагностике. В аналитике — для байесовских A/B-тестов и последовательного принятия решений. Смотрите также примеры вопросов и подготовку к собеседованию.