Вы видите положительную корреляцию между продажами мороженого и количеством утоплений по дням. Это типичный пример ложной связи. Что наиболее вероятно объясняет наблюдение?
AМороженое прямо вызывает утопления: повышение уровня сахара в крови у купающихся ослабляет их физическую форму на воде
BКорреляция Пирсона по дням посчитана с ошибкой и не работает на временных рядах с сезонностью и автокорреляцией
CЕсть смешивающий фактор (например, температура воздуха), который влияет и на продажи мороженого, и на число утоплений
DСвязь объясняется обратной причинностью: рост числа утоплений поднимает спрос на мороженое в курортных регионах летом
Правильный ответ. Ложная связь часто возникает из-за общего смешивающего фактора, который влияет на обе переменные.
Разбор
Это классический пример конфаундера: жаркие дни одновременно увеличивают и продажи мороженого, и число купающихся, а вместе с ними — количество утоплений. Между двумя метриками нет прямой причинной связи, обе следуют за температурой. Идея «мороженое вызывает утопления через сахар» физически несостоятельна. Тезис, что Пирсон не работает на временных рядах, верен лишь технически (нужны поправки на автокорреляцию), но не объясняет ложную связь. Обратная причинность (утопления влияют на спрос) маловероятна на масштабе данных.
Проверь себя · 1/3разбор после ответа
У вас миллион наблюдений,
Pearson r между двумя метриками равен 0.03, а p-value очень маленький. Какой вывод наиболее корректен для продукта?Ещё вопросы по теме «Корреляция и регрессия»
- В отчёте нашли положительную корреляцию между числом пушей на пользователя и выручкой. Какой вывод наиболее корректен?
- В данных по товарам коэффициент корреляции Пирсона между ценой и конверсией равен -0.7. Как это интерпретировать?
- У вас 100 наблюдений, где почти нет связи между `x` и `y`, но есть одна точка с очень большим `x` и `y`. После добавления этой точки `Pearson r` стал 0.8. Что это чаще всего означает?
- Конверсия растёт со скидкой до порога, а затем почти не меняется. При этом `Pearson r` между скидкой и конверсией близок к 0. Какой вывод корректен?
- Вы нашли корреляцию между количеством показов рекламы и выручкой. Но вы знаете, что в праздники и показы, и выручка растут. Как лучше описать риск интерпретации?
- Все вопросы по «Корреляция и регрессия» →