Uplift modeling на собеседовании Data Scientist

Подготовься к собесу по A/B и статистике
300+ вопросов с разбором: дизайн, размер выборки, p-value, ловушки
Тренировать A/B в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем uplift

Classic ML predicts P(buy | user). Uplift — incremental effect treatment.

Lift = P(buy | treated) - P(buy | control)

Хотим target тех, кого treatment really меняет (persuadables), не тех, кто купит anyway.

4 группы

Persuadables. Купят только при treatment → target.

Sure things. Купят always → не нужно treat (waste budget).

Lost causes. Не купят даже с treatment → не нужно.

Sleeping dogs. Treatment ухудшает (обратный effect) → НЕ treat.

Uplift modeling identifies persuadables.

Подходы: T / S / X-learner

T-learner (two models).

Model_treated.fit(X_treated, Y_treated)
Model_control.fit(X_control, Y_control)
Uplift = Model_treated(X) - Model_control(X)

Простой, не efficient на small treatment group.

S-learner (single model).

Train one model on combined data with treatment as feature.
Uplift = predict(X, treatment=1) - predict(X, treatment=0)

Bias может быть problem (treatment underrated).

X-learner. Uses outcomes одной group для improving estimate other. Better small unbalanced data.

Causal forest

Random forest variant специально для treatment effect estimation.

Each tree splits на features that maximize heterogeneity treatment effect.

Library: EconML, CausalML.

Подготовься к собесу по A/B и статистике
300+ вопросов с разбором: дизайн, размер выборки, p-value, ловушки
Тренировать A/B в Telegram

Метрики

Qini curve. Cumulative uplift при targeting top-X% по predicted uplift. Higher curve = better.

AUUC. Area under uplift curve.

Standard ML AUC не подходит — не measures incremental.

Применения

Marketing. Targeting promotions / discounts.

Recsys. Persuasion-relevant recommendations.

Medical. Treatment effect heterogeneity.

Sales. Outbound calls — кому позвонить.

Retention campaigns. Кого save через discount.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на работах Wager-Athey 2018 (causal forest), документации EconML / CausalML.


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.