Instrumental variable простыми словами
orders_2024 и orders_2025 имеют одинаковую структуру. Некоторые заказы случайно попали в обе таблицы. Чем будут отличаться результаты SELECT * FROM orders_2024 UNION SELECT * FROM orders_2025 и того же запроса с UNION ALL?Содержание:
Зачем это знать
Корреляция образования и зарплаты — не причинный эффект образования, потому что есть скрытая переменная «способности». Instrumental variable (IV) — способ измерить чистый эффект, когда классическая регрессия не работает.
IV — продвинутая техника causal inference. На собесах в ML и DS в FAANG спрашивают, а большинство не знают.
Короткое объяснение
Instrumental variable (инструмент) — переменная, которая:
- Влияет на X (воздействие).
- НЕ влияет напрямую на Y (результат) — только через X.
- Не коррелирует со скрытыми переменными-смесителями.
Тогда можно оценить причинный эффект X на Y, используя только ту вариацию X, которую вызвал инструмент.
Примеры
Пример 1. Образование
Проблема: оценить эффект образования на зарплату. Скрытая переменная — способности.
Инструмент: расстояние до университета при рождении.
- Живёшь рядом с университетом — выше шанс учиться.
- Расстояние не влияет напрямую на зарплату.
- Не коррелирует со способностями.
Используя только вариацию в образовании, вызванную расстоянием, получаем несмещённый эффект.
Пример 2. Health insurance
Проблема: эффект страховки на здоровье.
Инструмент: лотерея для получения Medicaid (Oregon Health Experiment).
Лотерея случайна — инструмент идеальный.
Формула 2SLS
Two-stage least squares:
Шаг 1. Регрессия X на Z (инструмент):
X = α + π × Z + εПолучаем X̂ — предсказанный X.
Шаг 2. Регрессия Y на X̂:
Y = β₀ + β₁ × X̂ + uβ₁ — это IV-оценка.
В Python
from linearmodels.iv import IV2SLS
model = IV2SLS.from_formula(
'outcome ~ 1 + [treatment ~ instrument]',
data=df
).fit()
print(model.summary)Условия на инструмент
1. Relevance (релевантность)
Инструмент должен сильно влиять на X.
Проверка: F-статистика на первом шаге > 10 (слабый инструмент — ненадёжный).
2. Exclusion restriction
Инструмент влияет на Y только через X.
Сложно проверить статистически — нужна содержательная экспертиза.
3. Exogeneity (экзогенность)
Инструмент не коррелирует с ошибкой модели.
Классические инструменты
- Лотерея или случайное назначение — идеал.
- Изменения политики (например, ранний выход на пенсию).
- Географическая вариация (расстояние).
- Погода (дождь снижает торговлю).
Weak instruments
Если инструмент слабо влияет на X, IV-оценка имеет большую дисперсию и может быть смещённой.
Правило: F > 10 на первом шаге.
На собесе
«Что такое IV?» Переменная, влияющая на воздействие, но не напрямую на результат.
«Какие условия?» Relevance, exclusion, exogeneity.
«Пример?» Лотерея, расстояние, изменение политики.
«Слабый инструмент — что?» Слабое влияние на X — смещение, большая дисперсия.
Частые ошибки
Нарушение exclusion
«Расстояние до университета не влияет на зарплату» — может нарушаться (разница зарплат в городе и деревне).
Слабый инструмент
F < 10 — результату доверять нельзя.
LATE vs ATE
IV даёт Local Average Treatment Effect — эффект на compliers (тех, чьё поведение реально меняется от инструмента), а не средний эффект по популяции.
Инструмент коррелирует со скрытой переменной
Если способности влияют и на расстояние до университета (богатые родители селятся рядом), инструмент невалиден.
Применение в tech
Netflix и YouTube
Случайная рекомендация как инструмент для поведения просмотра — оценка эффекта на retention.
Эксперименты с compliance
Часть пользователей не выполняют воздействие (игнорируют email-рассылку). IV исправляет смещение intention-to-treat.
Экономика и политика
Минимальная зарплата, налоги, образование — классические применения.
Связанные темы
FAQ
IV vs matching?
Matching работает по наблюдаемым переменным-смесителям. IV — по ненаблюдаемым.
Всегда можно найти?
Нет. Часто хорошего инструмента нет — используйте другой метод.
Рандомизированный A/B — это IV?
Назначение в группу — да, идеальный инструмент.