Bayesian методы на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Bayesian методы — фундаментальная часть статистики и ML. На собесе DS: «выведи Bayes», «отличие MLE и MAP», «зачем prior».
Теорема Байеса
P(θ | D) = P(D | θ) · P(θ) / P(D)- P(θ | D) — posterior (что мы хотим знать).
- P(D | θ) — likelihood (как вероятны данные при θ).
- P(θ) — prior (что мы знаем до данных).
- P(D) — evidence (нормирующая константа).
Интерпретация. Объединение existing knowledge (prior) с new evidence (likelihood) → updated belief (posterior).
MLE vs MAP
MLE (Maximum Likelihood Estimation).
θ_MLE = argmax P(D | θ)Frequentist подход. Без prior. Тот θ, который максимизирует вероятность данных.
MAP (Maximum A Posteriori).
θ_MAP = argmax P(θ | D) = argmax P(D | θ) · P(θ)Bayesian point estimate. Включает prior.
Связь с регуляризацией.
- L2 regularization (Ridge) ≡ MAP с Gaussian prior на weights.
- L1 regularization (Lasso) ≡ MAP с Laplace prior.
Conjugate priors
Prior, для которого posterior имеет ту же форму, что и prior. Удобно вычислительно.
Примеры:
- Beta-Binomial: Beta prior + Binomial likelihood → Beta posterior.
- Gaussian-Gaussian: Gaussian prior on mean + Gaussian likelihood → Gaussian posterior.
- Dirichlet-Categorical.
Prior: Beta(α, β)
After observing k successes in n trials:
Posterior: Beta(α+k, β+n-k)Простая аналитическая обновление.
Naive Bayes
Классификатор на основе теоремы Байеса с предположением независимости features.
P(class | x_1, ..., x_n) ∝ P(class) · ∏ P(x_i | class)«Naive» — потому что независимость features редко true. Тем не менее работает на простых задачах.
Variants:
- Gaussian NB — continuous features.
- Multinomial NB — text counts.
- Bernoulli NB — binary features.
Применение. Spam filtering, sentiment analysis (исторически).
Bayesian inference
Сложнее MAP. Хочется не точечную оценку, а полное posterior distribution.
Методы:
- Conjugate priors — analytic, если повезло.
- MCMC (Markov Chain Monte Carlo). Sampling из posterior — Gibbs, Metropolis-Hastings, NUTS (PyMC, Stan).
- Variational Inference. Approximate posterior parametric distribution. Быстрее MCMC.
Tools: PyMC, Stan, TensorFlow Probability, NumPyro.
Применения
A/B testing Bayesian. P(B > A | data) — прямой ответ, vs frequentist p-value.
Recsys. Beta-Bernoulli для CTR estimation с smoothing.
Anomaly detection. Posterior probability of anomaly.
Bayesian neural networks. Distributions over weights, uncertainty quantification.
Hyperparameter tuning. Bayesian optimization (Gaussian Process surrogate).
Частые ошибки
Использовать non-informative prior всегда. Иногда сильный prior — преимущество.
Считать MLE = MAP с uniform prior. Не всегда, особенно с unbounded θ.
Игнорировать posterior uncertainty. MAP — точка. Нет confidence interval. Bayesian → даёт распределение.
Naive Bayes с correlated features. Качество страдает. Decorrelate or use other classifier.
MCMC на маленькой задаче. Overkill. Conjugate / VI быстрее.
Связанные темы
- Linear vs logistic regression на собесе DS
- Регуляризация L1 и L2 на собесе DS
- Loss функции на собесе DS
- Bias-variance trade-off на собесе DS
- Подготовка к собесу Data Scientist
FAQ
Bayes vs frequentist?
Frequentist — параметры fixed unknown, данные random. Bayesian — параметры random, данные fixed observed. Оба валидны, разные взгляды.
Это официальная информация?
Нет. Статья основана на классике (Bishop «PRML», Murphy «PML»).
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.