Корреляция и причинность на собеседовании

Почему эту тему любят интервьюеры

«Корреляция не равна причинности» — фраза, которую знают все. Но на собеседовании недостаточно её произнести. Интервьюер проверяет, понимаете ли вы механизм: почему возникают ложные корреляции, что такое confounders, как установить причинно-следственную связь и когда наблюдательных данных недостаточно.

Эта тема появляется в двух форматах: прямые вопросы («чем корреляция отличается от причинности?») и задачи-ловушки, где предлагают сделать каузальный вывод из наблюдательных данных.

Correlation does not imply causation

Корреляция показывает, что две переменные изменяются совместно. Но совместное изменение может быть вызвано тремя причинами:

A вызывает B — реальная причинно-следственная связь. Повышение цены вызывает снижение спроса.

B вызывает A — обратная причинность. Не «успешные люди читают книги», а «образованные (и поэтому более успешные) люди чаще читают».

C вызывает и A, и B — скрытый фактор (confounder). Продажи мороженого и утопления коррелируют, но причина — жаркая погода, которая влияет на оба показателя.

Чистое совпадение — спурная корреляция. Потребление сыра коррелирует с количеством запутавшихся в простынях. При миллионах пар переменных совпадения неизбежны.

Confounders: главная проблема

Confounder (вмешивающаяся переменная) — это фактор, который влияет и на предполагаемую причину, и на следствие, создавая иллюзию связи между ними.

Пример из аналитики: пользователи, которые прошли онбординг, имеют более высокую D7-ретенцию. Означает ли это, что онбординг улучшает ретенцию? Не обязательно. Мотивированные пользователи и проходят онбординг чаще, и возвращаются чаще. Мотивация — confounder.

Пример из медицины: пьющие красное вино живут дольше. Confounder — социально-экономический статус: состоятельные люди и пьют вино (а не крепкий алкоголь), и имеют лучший доступ к медицине.

Как обнаружить confounder: задайте вопрос — «есть ли фактор, который мог повлиять на обе переменные одновременно?» Если да, наблюдаемая корреляция не доказывает причинность.

Важно: На собеседовании, если вам предлагают сделать каузальный вывод из наблюдательных данных, всегда спрашивайте про confounders. Это показывает критическое мышление — качество, которое ценят больше, чем знание формул.

Парадокс Симпсона

Парадокс Симпсона — ситуация, когда тренд, видимый в агрегированных данных, исчезает или переворачивается при разбивке по группам.

Классический пример: лекарство A эффективнее лекарства B в общей статистике. Но при разбивке по полу лекарство B эффективнее и для мужчин, и для женщин. Как? Лекарство A чаще давали лёгким пациентам (преимущественно женщинам), а B — тяжёлым (преимущественно мужчинам).

На собеседовании: парадокс Симпсона проверяет, умеете ли вы смотреть дальше агрегированных метрик. Решение — всегда проверять результат в разрезе ключевых сегментов. Это напрямую связано с анализом A/B-тестов.

Как установить причинность

Единственный надёжный способ установить причинно-следственную связь — контролируемый эксперимент (randomized controlled trial, RCT). Рандомизация устраняет влияние confounders, потому что распределяет их равномерно между группами.

Когда эксперимент невозможен, есть альтернативы: natural experiment (закон изменился в одном регионе, но не в соседнем), difference-in-differences (сравнение изменений до и после воздействия), instrumental variables (переменная, влияющая на X, но не на Y напрямую) и regression discontinuity (сравнение наблюдений чуть выше и ниже порога назначения воздействия).

Как отвечать на вопросы

Структура ответа, когда интервьюер показывает корреляцию и спрашивает «что это значит?»:

  1. Признайте корреляцию — да, связь в данных есть
  2. Назовите возможные confounders — какие факторы могли создать ложную связь
  3. Предложите эксперимент — как проверить причинность (A/B-тест, natural experiment)
  4. Оцените направление — даже если связь каузальная, в какую сторону она работает

Совет: На собеседовании фраза «для каузального вывода нужен эксперимент» — хороший ответ. Но ещё лучше — предложить конкретный дизайн эксперимента, который проверит гипотезу. Это показывает практический опыт работы с данными.

FAQ

Как объяснить разницу нетехническому менеджеру?

Используйте аналогию: «Города с большим количеством пожарных имеют больше пожаров. Это не значит, что пожарные вызывают пожары — просто в больших городах и пожаров больше, и пожарных». Confounder — размер города. Простые примеры работают лучше формальных определений.

Достаточно ли регрессии для установления причинности?

Нет. Регрессия контролирует наблюдаемые confounders, но не ненаблюдаемые. Если есть скрытый фактор, который вы не включили в модель, регрессия покажет ложную связь. Для причинности нужна рандомизация или квази-экспериментальный метод. Подробнее о методах — в разделе статистика.

Когда корреляция всё-таки указывает на причинность?

Когда выполняются критерии Хилла: связь сильная, воспроизводимая, специфичная, есть временной порядок (причина предшествует следствию), биологический или логический механизм правдоподобен. Ни один критерий не является достаточным, но вместе они усиливают каузальный аргумент. Смотрите также примеры вопросов и подготовку к собеседованию.