Instrumental variable простыми словами

Проверь себя · 1/3разбор после ответа
Таблицы orders_2024 и orders_2025 имеют одинаковую структуру. Некоторые заказы случайно попали в обе таблицы. Чем будут отличаться результаты SELECT * FROM orders_2024 UNION SELECT * FROM orders_2025 и того же запроса с UNION ALL?

Зачем это знать

Корреляция образования и зарплаты — не причинный эффект образования, потому что есть скрытая переменная «способности». Instrumental variable (IV) — способ измерить чистый эффект, когда классическая регрессия не работает.

IV — продвинутая техника causal inference. На собесах в ML и DS в FAANG спрашивают, а большинство не знают.

Короткое объяснение

Instrumental variable (инструмент) — переменная, которая:

  1. Влияет на X (воздействие).
  2. НЕ влияет напрямую на Y (результат) — только через X.
  3. Не коррелирует со скрытыми переменными-смесителями.

Тогда можно оценить причинный эффект X на Y, используя только ту вариацию X, которую вызвал инструмент.

Примеры

Пример 1. Образование

Проблема: оценить эффект образования на зарплату. Скрытая переменная — способности.

Инструмент: расстояние до университета при рождении.

  • Живёшь рядом с университетом — выше шанс учиться.
  • Расстояние не влияет напрямую на зарплату.
  • Не коррелирует со способностями.

Используя только вариацию в образовании, вызванную расстоянием, получаем несмещённый эффект.

Пример 2. Health insurance

Проблема: эффект страховки на здоровье.

Инструмент: лотерея для получения Medicaid (Oregon Health Experiment).

Лотерея случайна — инструмент идеальный.

Формула 2SLS

Two-stage least squares:

Шаг 1. Регрессия X на Z (инструмент):

X = α + π × Z + ε

Получаем X̂ — предсказанный X.

Шаг 2. Регрессия Y на X̂:

Y = β₀ + β₁ × X̂ + u

β₁ — это IV-оценка.

В Python

from linearmodels.iv import IV2SLS

model = IV2SLS.from_formula(
    'outcome ~ 1 + [treatment ~ instrument]',
    data=df
).fit()
print(model.summary)

Условия на инструмент

1. Relevance (релевантность)

Инструмент должен сильно влиять на X.

Проверка: F-статистика на первом шаге > 10 (слабый инструмент — ненадёжный).

2. Exclusion restriction

Инструмент влияет на Y только через X.

Сложно проверить статистически — нужна содержательная экспертиза.

3. Exogeneity (экзогенность)

Инструмент не коррелирует с ошибкой модели.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Классические инструменты

  • Лотерея или случайное назначение — идеал.
  • Изменения политики (например, ранний выход на пенсию).
  • Географическая вариация (расстояние).
  • Погода (дождь снижает торговлю).

Weak instruments

Если инструмент слабо влияет на X, IV-оценка имеет большую дисперсию и может быть смещённой.

Правило: F > 10 на первом шаге.

На собесе

«Что такое IV?» Переменная, влияющая на воздействие, но не напрямую на результат.

«Какие условия?» Relevance, exclusion, exogeneity.

«Пример?» Лотерея, расстояние, изменение политики.

«Слабый инструмент — что?» Слабое влияние на X — смещение, большая дисперсия.

Частые ошибки

Нарушение exclusion

«Расстояние до университета не влияет на зарплату» — может нарушаться (разница зарплат в городе и деревне).

Слабый инструмент

F < 10 — результату доверять нельзя.

LATE vs ATE

IV даёт Local Average Treatment Effect — эффект на compliers (тех, чьё поведение реально меняется от инструмента), а не средний эффект по популяции.

Инструмент коррелирует со скрытой переменной

Если способности влияют и на расстояние до университета (богатые родители селятся рядом), инструмент невалиден.

Применение в tech

Netflix и YouTube

Случайная рекомендация как инструмент для поведения просмотра — оценка эффекта на retention.

Эксперименты с compliance

Часть пользователей не выполняют воздействие (игнорируют email-рассылку). IV исправляет смещение intention-to-treat.

Экономика и политика

Минимальная зарплата, налоги, образование — классические применения.

Связанные темы

FAQ

IV vs matching?

Matching работает по наблюдаемым переменным-смесителям. IV — по ненаблюдаемым.

Всегда можно найти?

Нет. Часто хорошего инструмента нет — используйте другой метод.

Рандомизированный A/B — это IV?

Назначение в группу — да, идеальный инструмент.