Reinforcement learning на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

RL — sequential decision making. На собесе DS: «MDP», «отличие RL от supervised».

MDP

Markov Decision Process — фундамент RL.

S — состояния.
A — действия.
P(s'| s, a) — transition probability.
R(s, a) — reward.
γ — discount factor.

Цель: найти policy π(a | s), максимизирующую expected discounted reward.

Markov property. Будущее зависит только от current state, не истории.

Value-based methods

Учим value function V(s) или Q(s, a) — expected return from state.

Bellman equation:

Q(s, a) = R(s, a) + γ · max_a' Q(s', a')

Q-learning. Off-policy iterative update.

Q(s, a) ← Q(s, a) + α · [r + γ · max_a' Q(s', a') - Q(s, a)]

SARSA. On-policy variant.

Policy = greedy w.r.t. Q.

Policy-based methods

Напрямую учим policy π(a | s; θ).

Policy gradient (REINFORCE).

∇θ J(θ) = E[∇θ log π(a|s; θ) · Return]

Идея: increase probability of actions, leading к high reward.

Pros: работает с continuous action space. Cons: high variance.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Actor-critic

Combines value-based и policy-based.

  • Actor — policy π(a | s).
  • Critic — value function V(s).

Critic stabilizes policy gradient (low variance).

DQN, PPO

DQN (Deep Q-Network). Q-function approximated NN. Atari games success (DeepMind 2013).

  • Replay buffer — sample random past experiences.
  • Target network — stable Q targets.

PPO (Proximal Policy Optimization). Modern policy gradient. Clip update, чтобы policy не уходила слишком далеко от previous.

L^CLIP = E[min(r(θ) · A, clip(r(θ), 1-ε, 1+ε) · A)]

PPO — стандарт для современного RL и RLHF.

Применения

Games. Atari, Go (AlphaGo), StarCraft, Dota.

Robotics. Locomotion, manipulation.

RLHF в LLM. Alignment моделей с human preferences.

Recsys. Long-term reward optimization (engagement, не click).

Trading. Sequential decisions с feedback.

Resource management. Cloud autoscaling, ad bidding.

В индустрии — RL применяется реже supervised (data hungry, hard to train). Главное место — RLHF + games + robotics.

Связанные темы

FAQ

Q-learning на огромных state space?

Не работает. Function approximation (NN — DQN). Для continuous — DDPG, SAC.

Это официальная информация?

Нет. Статья основана на Sutton & Barto «Reinforcement Learning».


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.