Instrumental variable простыми словами
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Зачем это знать
Корреляция образования и зарплаты — не каузальный effect образования, потому что есть confounder «способности». Instrumental variable (IV) — способ измерить чистый эффект, когда классическая регрессия не работает.
IV — продвинутая техника causal inference. На собесах в ML/DS в FAANG спрашивают, а большинство не знают.
Короткое объяснение
Instrumental variable (инструмент) — переменная, которая:
- Влияет на X (treatment)
- НЕ влияет напрямую на Y (outcome) — только через X
- Не коррелирует с confounders
Тогда можно оценить causal effect X на Y, используя только variation, вызванную инструментом.
Пример 1: образование
Проблема: estimate effect образования на зарплату. Confounder — способности.
Инструмент: distance до университета при рождении.
- Живёшь рядом с университетом → ↑ шанс учиться
- Расстояние не влияет напрямую на зарплату
- Не коррелирует со способностями
Используя только variation в образовании, вызванную расстоянием → unbiased эффект.
Пример 2: health insurance
Проблема: effect insurance на health outcomes.
Инструмент: lottery для получения Medicaid (Oregon Health Experiment).
Lottery random → инструмент идеальный.
Формула (2SLS)
Two-stage least squares:
Stage 1: регрессия X на Z (инструмент):
X = α + π × Z + εПолучаем X̂ — predicted X.
Stage 2: регрессия Y на X̂:
Y = β₀ + β₁ × X̂ + uβ₁ — это IV estimate.
В Python
from linearmodels.iv import IV2SLS
model = IV2SLS.from_formula(
'outcome ~ 1 + [treatment ~ instrument]',
data=df
).fit()
print(model.summary)Условия на инструмент
1. Relevance
Инструмент должен сильно влиять на X.
Проверка: F-statistic в first stage > 10 (weak instrument → unreliable).
2. Exclusion restriction
Инструмент влияет на Y только через X.
Сложно проверить статистически — нужен content knowledge.
3. Exogeneity
Инструмент uncorrelated с error term.
Классические IV
- Lottery / random assignment — идеал
- Policy changes (раннее выходы на пенсию)
- Geographic variation (distance)
- Weather (дождь → ↓ trade)
Weak instruments
Если инструмент слабо влияет на X → IV estimate имеет большую variance и может быть biased.
Правило: F-statistic > 10 в first stage.
На собесе
«Что такое IV?» Переменная, влияющая на treatment, но не напрямую на outcome.
«Какие условия?» Relevance, exclusion, exogeneity.
«Пример?» Lottery, distance, policy change.
«Weak instruments — что?» Слабое влияние на X → bias, большой variance.
Частые ошибки
Нарушение exclusion
«Distance до университета не влияет на зарплату» — может нарушаться (urban vs rural wage differences).
Weak instrument
F < 10 → результат не trust.
LATE vs ATE
IV даёт Local Average Treatment Effect — эффект на compliers, не average.
Применение в tech
Netflix / YouTube
Random recommendation as instrument for watch behaviour → эффект на retention.
Experiments с compliance
Some users не выполняют treatment (ignore email campaigns). IV исправляет intention-to-treat bias.
Economics / policy
Minimum wage, tax, education — classic применения.
Связанные темы
FAQ
IV vs matching?
Matching — на observed confounders. IV — на unobserved.
Всегда можно найти?
Нет. Часто good instrument нет → использовать другой метод.
Randomized A/B — это IV?
Assignment к треатменту — да, идеальный IV.
Тренируйте causal — откройте тренажёр с 1500+ вопросами для собесов.