Causal inference на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

Causal inference — отличие от просто корреляции. На собесе DS: «отличие correlation и causation», «RCT vs observational».

Корреляция != причинность

Classic example: ice cream sales correlates with drowning. Не ice cream causes drowning — оба растут летом (confounder).

Confounding — переменная, влияющая на оба X и Y, создающая ложную correlation.

   Summer
   /     \
  ↓       ↓
 Ice cream → Drowning  (но это ложь)

Без контроля confounders — observational data может ввести в заблуждение.

RCT — gold standard

Randomized Controlled Trial. Случайно делим subjects на treatment / control.

- Random assignment.
- Treatment получает intervention.
- Control — placebo / nothing.
- Compare outcomes.

Randomization устраняет all confounders в expectation. Difference в outcomes — causal effect.

В digital — A/B test. В медицине — clinical trial.

Когда невозможен. Ethics (нельзя exposure to harm), cost, time.

Observational studies

Когда RCT нельзя — work with existing data.

Проблема. Treatment группа отличается от control во многих ways. Нужны techniques для unbiased estimate.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Propensity score matching

Propensity score. Probability of treatment given covariates: P(T=1 | X).

Approach.

  1. Оценить propensity score (logistic regression на X).
  2. Match каждый treated с similar propensity untreated.
  3. Compare outcomes в matched pairs.

Matching simulates RCT — treatment / control similar в covariates.

Inverse Propensity Weighting (IPW). Альтернатива matching — вес каждого objвекта 1/p_t (или 1/(1-p_t)).

Difference-in-differences

DiD. Сравниваем change in treatment vs change in control over time.

                  Before   After
Treatment group:   T1       T2     ΔT = T2 - T1
Control group:     C1       C2     ΔC = C2 - C1

DiD = ΔT - ΔC  (causal effect)

Assumption: parallel trends. Без treatment, treatment и control would have same trend.

Применение: policy interventions, marketing campaigns.

Instrumental variables

IV. Когда есть variable Z, влияющая только через X на Y (не direct).

Z → X → Y
(Z не влияет на Y direct)

Estimate: two-stage regression.

  1. Regression X на Z → predicted X.
  2. Regression Y на predicted X → causal effect.

Classic example. Weather → ice cream sales → ad campaigns. Weather — IV.

Сложно найти valid IV в реальности.

Связанные темы

FAQ

Causal ML — что это?

Расширение ML для estimation treatment effects. Uplift modeling, double ML. Tools: EconML, CausalML, DoWhy.

Это официальная информация?

Нет. Статья основана на классике (Pearl «Causal Inference», Imbens & Rubin).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.