Instrumental variable простыми словами

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Зачем это знать

Корреляция образования и зарплаты — не каузальный effect образования, потому что есть confounder «способности». Instrumental variable (IV) — способ измерить чистый эффект, когда классическая регрессия не работает.

IV — продвинутая техника causal inference. На собесах в ML/DS в FAANG спрашивают, а большинство не знают.

Короткое объяснение

Instrumental variable (инструмент) — переменная, которая:

  1. Влияет на X (treatment)
  2. НЕ влияет напрямую на Y (outcome) — только через X
  3. Не коррелирует с confounders

Тогда можно оценить causal effect X на Y, используя только variation, вызванную инструментом.

Пример 1: образование

Проблема: estimate effect образования на зарплату. Confounder — способности.

Инструмент: distance до университета при рождении.

  • Живёшь рядом с университетом → ↑ шанс учиться
  • Расстояние не влияет напрямую на зарплату
  • Не коррелирует со способностями

Используя только variation в образовании, вызванную расстоянием → unbiased эффект.

Пример 2: health insurance

Проблема: effect insurance на health outcomes.

Инструмент: lottery для получения Medicaid (Oregon Health Experiment).

Lottery random → инструмент идеальный.

Формула (2SLS)

Two-stage least squares:

Stage 1: регрессия X на Z (инструмент):

X = α + π × Z + ε

Получаем X̂ — predicted X.

Stage 2: регрессия Y на X̂:

Y = β₀ + β₁ × X̂ + u

β₁ — это IV estimate.

В Python

from linearmodels.iv import IV2SLS

model = IV2SLS.from_formula(
    'outcome ~ 1 + [treatment ~ instrument]',
    data=df
).fit()
print(model.summary)

Условия на инструмент

1. Relevance

Инструмент должен сильно влиять на X.

Проверка: F-statistic в first stage > 10 (weak instrument → unreliable).

2. Exclusion restriction

Инструмент влияет на Y только через X.

Сложно проверить статистически — нужен content knowledge.

3. Exogeneity

Инструмент uncorrelated с error term.

Классические IV

  • Lottery / random assignment — идеал
  • Policy changes (раннее выходы на пенсию)
  • Geographic variation (distance)
  • Weather (дождь → ↓ trade)

Weak instruments

Если инструмент слабо влияет на X → IV estimate имеет большую variance и может быть biased.

Правило: F-statistic > 10 в first stage.

На собесе

«Что такое IV?» Переменная, влияющая на treatment, но не напрямую на outcome.

«Какие условия?» Relevance, exclusion, exogeneity.

«Пример?» Lottery, distance, policy change.

«Weak instruments — что?» Слабое влияние на X → bias, большой variance.

Частые ошибки

Нарушение exclusion

«Distance до университета не влияет на зарплату» — может нарушаться (urban vs rural wage differences).

Weak instrument

F < 10 → результат не trust.

LATE vs ATE

IV даёт Local Average Treatment Effect — эффект на compliers, не average.

Применение в tech

Netflix / YouTube

Random recommendation as instrument for watch behaviour → эффект на retention.

Experiments с compliance

Some users не выполняют treatment (ignore email campaigns). IV исправляет intention-to-treat bias.

Economics / policy

Minimum wage, tax, education — classic применения.

Связанные темы

FAQ

IV vs matching?

Matching — на observed confounders. IV — на unobserved.

Всегда можно найти?

Нет. Часто good instrument нет → использовать другой метод.

Randomized A/B — это IV?

Assignment к треатменту — да, идеальный IV.


Тренируйте causal — откройте тренажёр с 1500+ вопросами для собесов.