Uplift modeling на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем uplift
Classic ML predicts P(buy | user). Uplift — incremental effect treatment.
Lift = P(buy | treated) - P(buy | control)Хотим target тех, кого treatment really меняет (persuadables), не тех, кто купит anyway.
4 группы
Persuadables. Купят только при treatment → target.
Sure things. Купят always → не нужно treat (waste budget).
Lost causes. Не купят даже с treatment → не нужно.
Sleeping dogs. Treatment ухудшает (обратный effect) → НЕ treat.
Uplift modeling identifies persuadables.
Подходы: T / S / X-learner
T-learner (two models).
Model_treated.fit(X_treated, Y_treated)
Model_control.fit(X_control, Y_control)
Uplift = Model_treated(X) - Model_control(X)Простой, не efficient на small treatment group.
S-learner (single model).
Train one model on combined data with treatment as feature.
Uplift = predict(X, treatment=1) - predict(X, treatment=0)Bias может быть problem (treatment underrated).
X-learner. Uses outcomes одной group для improving estimate other. Better small unbalanced data.
Causal forest
Random forest variant специально для treatment effect estimation.
Each tree splits на features that maximize heterogeneity treatment effect.
Library: EconML, CausalML.
Метрики
Qini curve. Cumulative uplift при targeting top-X% по predicted uplift. Higher curve = better.
AUUC. Area under uplift curve.
Standard ML AUC не подходит — не measures incremental.
Применения
Marketing. Targeting promotions / discounts.
Recsys. Persuasion-relevant recommendations.
Medical. Treatment effect heterogeneity.
Sales. Outbound calls — кому позвонить.
Retention campaigns. Кого save через discount.
Связанные темы
- Causal inference для DS
- Multi-armed bandit для DS
- A/B testing fundamentals
- Bias и fairness для DS
- Подготовка к собесу Data Scientist
FAQ
Это официальная информация?
Нет. Статья основана на работах Wager-Athey 2018 (causal forest), документации EconML / CausalML.
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.