Bayesian методы на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

Bayesian методы — фундаментальная часть статистики и ML. На собесе DS: «выведи Bayes», «отличие MLE и MAP», «зачем prior».

Теорема Байеса

P(θ | D) = P(D | θ) · P(θ) / P(D)
  • P(θ | D) — posterior (что мы хотим знать).
  • P(D | θ) — likelihood (как вероятны данные при θ).
  • P(θ) — prior (что мы знаем до данных).
  • P(D) — evidence (нормирующая константа).

Интерпретация. Объединение existing knowledge (prior) с new evidence (likelihood) → updated belief (posterior).

MLE vs MAP

MLE (Maximum Likelihood Estimation).

θ_MLE = argmax P(D | θ)

Frequentist подход. Без prior. Тот θ, который максимизирует вероятность данных.

MAP (Maximum A Posteriori).

θ_MAP = argmax P(θ | D) = argmax P(D | θ) · P(θ)

Bayesian point estimate. Включает prior.

Связь с регуляризацией.

  • L2 regularization (Ridge) ≡ MAP с Gaussian prior на weights.
  • L1 regularization (Lasso) ≡ MAP с Laplace prior.

Conjugate priors

Prior, для которого posterior имеет ту же форму, что и prior. Удобно вычислительно.

Примеры:

  • Beta-Binomial: Beta prior + Binomial likelihood → Beta posterior.
  • Gaussian-Gaussian: Gaussian prior on mean + Gaussian likelihood → Gaussian posterior.
  • Dirichlet-Categorical.
Prior: Beta(α, β)
After observing k successes in n trials:
Posterior: Beta(α+k, β+n-k)

Простая аналитическая обновление.

Naive Bayes

Классификатор на основе теоремы Байеса с предположением независимости features.

P(class | x_1, ..., x_n) ∝ P(class) · ∏ P(x_i | class)

«Naive» — потому что независимость features редко true. Тем не менее работает на простых задачах.

Variants:

  • Gaussian NB — continuous features.
  • Multinomial NB — text counts.
  • Bernoulli NB — binary features.

Применение. Spam filtering, sentiment analysis (исторически).

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Bayesian inference

Сложнее MAP. Хочется не точечную оценку, а полное posterior distribution.

Методы:

  • Conjugate priors — analytic, если повезло.
  • MCMC (Markov Chain Monte Carlo). Sampling из posterior — Gibbs, Metropolis-Hastings, NUTS (PyMC, Stan).
  • Variational Inference. Approximate posterior parametric distribution. Быстрее MCMC.

Tools: PyMC, Stan, TensorFlow Probability, NumPyro.

Применения

A/B testing Bayesian. P(B > A | data) — прямой ответ, vs frequentist p-value.

Recsys. Beta-Bernoulli для CTR estimation с smoothing.

Anomaly detection. Posterior probability of anomaly.

Bayesian neural networks. Distributions over weights, uncertainty quantification.

Hyperparameter tuning. Bayesian optimization (Gaussian Process surrogate).

Частые ошибки

Использовать non-informative prior всегда. Иногда сильный prior — преимущество.

Считать MLE = MAP с uniform prior. Не всегда, особенно с unbounded θ.

Игнорировать posterior uncertainty. MAP — точка. Нет confidence interval. Bayesian → даёт распределение.

Naive Bayes с correlated features. Качество страдает. Decorrelate or use other classifier.

MCMC на маленькой задаче. Overkill. Conjugate / VI быстрее.

Связанные темы

FAQ

Bayes vs frequentist?

Frequentist — параметры fixed unknown, данные random. Bayesian — параметры random, данные fixed observed. Оба валидны, разные взгляды.

Это официальная информация?

Нет. Статья основана на классике (Bishop «PRML», Murphy «PML»).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.