Causal inference на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Causal inference — отличие от просто корреляции. На собесе DS: «отличие correlation и causation», «RCT vs observational».
Корреляция != причинность
Classic example: ice cream sales correlates with drowning. Не ice cream causes drowning — оба растут летом (confounder).
Confounding — переменная, влияющая на оба X и Y, создающая ложную correlation.
Summer
/ \
↓ ↓
Ice cream → Drowning (но это ложь)Без контроля confounders — observational data может ввести в заблуждение.
RCT — gold standard
Randomized Controlled Trial. Случайно делим subjects на treatment / control.
- Random assignment.
- Treatment получает intervention.
- Control — placebo / nothing.
- Compare outcomes.Randomization устраняет all confounders в expectation. Difference в outcomes — causal effect.
В digital — A/B test. В медицине — clinical trial.
Когда невозможен. Ethics (нельзя exposure to harm), cost, time.
Observational studies
Когда RCT нельзя — work with existing data.
Проблема. Treatment группа отличается от control во многих ways. Нужны techniques для unbiased estimate.
Propensity score matching
Propensity score. Probability of treatment given covariates: P(T=1 | X).
Approach.
- Оценить propensity score (logistic regression на X).
- Match каждый treated с similar propensity untreated.
- Compare outcomes в matched pairs.
Matching simulates RCT — treatment / control similar в covariates.
Inverse Propensity Weighting (IPW). Альтернатива matching — вес каждого objвекта 1/p_t (или 1/(1-p_t)).
Difference-in-differences
DiD. Сравниваем change in treatment vs change in control over time.
Before After
Treatment group: T1 T2 ΔT = T2 - T1
Control group: C1 C2 ΔC = C2 - C1
DiD = ΔT - ΔC (causal effect)Assumption: parallel trends. Без treatment, treatment и control would have same trend.
Применение: policy interventions, marketing campaigns.
Instrumental variables
IV. Когда есть variable Z, влияющая только через X на Y (не direct).
Z → X → Y
(Z не влияет на Y direct)Estimate: two-stage regression.
- Regression X на Z → predicted X.
- Regression Y на predicted X → causal effect.
Classic example. Weather → ice cream sales → ad campaigns. Weather — IV.
Сложно найти valid IV в реальности.
Связанные темы
- A/B тестирование fundamentals
- Bayesian методы на собесе DS
- Multi-armed bandit для DS
- Bias-variance trade-off для DS
- Подготовка к собесу Data Scientist
FAQ
Causal ML — что это?
Расширение ML для estimation treatment effects. Uplift modeling, double ML. Tools: EconML, CausalML, DoWhy.
Это официальная информация?
Нет. Статья основана на классике (Pearl «Causal Inference», Imbens & Rubin).
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.