Reinforcement learning на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
RL — sequential decision making. На собесе DS: «MDP», «отличие RL от supervised».
MDP
Markov Decision Process — фундамент RL.
S — состояния.
A — действия.
P(s'| s, a) — transition probability.
R(s, a) — reward.
γ — discount factor.Цель: найти policy π(a | s), максимизирующую expected discounted reward.
Markov property. Будущее зависит только от current state, не истории.
Value-based methods
Учим value function V(s) или Q(s, a) — expected return from state.
Bellman equation:
Q(s, a) = R(s, a) + γ · max_a' Q(s', a')Q-learning. Off-policy iterative update.
Q(s, a) ← Q(s, a) + α · [r + γ · max_a' Q(s', a') - Q(s, a)]SARSA. On-policy variant.
Policy = greedy w.r.t. Q.
Policy-based methods
Напрямую учим policy π(a | s; θ).
Policy gradient (REINFORCE).
∇θ J(θ) = E[∇θ log π(a|s; θ) · Return]Идея: increase probability of actions, leading к high reward.
Pros: работает с continuous action space. Cons: high variance.
Actor-critic
Combines value-based и policy-based.
- Actor — policy π(a | s).
- Critic — value function V(s).
Critic stabilizes policy gradient (low variance).
DQN, PPO
DQN (Deep Q-Network). Q-function approximated NN. Atari games success (DeepMind 2013).
- Replay buffer — sample random past experiences.
- Target network — stable Q targets.
PPO (Proximal Policy Optimization). Modern policy gradient. Clip update, чтобы policy не уходила слишком далеко от previous.
L^CLIP = E[min(r(θ) · A, clip(r(θ), 1-ε, 1+ε) · A)]PPO — стандарт для современного RL и RLHF.
Применения
Games. Atari, Go (AlphaGo), StarCraft, Dota.
Robotics. Locomotion, manipulation.
RLHF в LLM. Alignment моделей с human preferences.
Recsys. Long-term reward optimization (engagement, не click).
Trading. Sequential decisions с feedback.
Resource management. Cloud autoscaling, ad bidding.
В индустрии — RL применяется реже supervised (data hungry, hard to train). Главное место — RLHF + games + robotics.
Связанные темы
- RLHF и DPO для DS
- Multi-armed bandit для DS
- Loss функции на собесе DS
- Bayesian методы для DS
- Подготовка к собесу Data Scientist
FAQ
Q-learning на огромных state space?
Не работает. Function approximation (NN — DQN). Для continuous — DDPG, SAC.
Это официальная информация?
Нет. Статья основана на Sutton & Barto «Reinforcement Learning».
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.