Вы посчитали correlation между количеством новых пользователей и количеством тикетов в саппорт и получили 0.9, потому что оба ряда росли каждый месяц. Какое действие лучше всего снижает риск spurious вывода?
AЗаменить
Pearson r на Binomial(n,p)BСчитать
correlation только по последнему месяцуCУчитывать тренд: сравнить изменения (например, разности по месяцам) или контролировать время, чтобы убрать общий рост
DИгнорировать результат: 0.9 всегда означает сильную причинность
Правильный ответ. Общий тренд может создавать
spurious корреляции во временных рядах.Разбор
Если две метрики растут со временем по внешним причинам, они будут коррелировать даже без реальной связи. Убирая тренд или контролируя время, вы проверяете, остаются ли совместные колебания поверх общего роста. Частая ошибка — интерпретировать трендовую корреляцию как прямое влияние одной метрики на другую.
Проверь себя · 1/3разбор после ответа
В модели
линейная регрессия вида revenue = a + b*emails коэффициент b равен 0.8. Как правильно интерпретировать b?Ещё вопросы по теме «Корреляция и регрессия»
- В отчете нашли положительную `correlation` между числом пушей на пользователя и выручкой. Какой вывод наиболее корректен?
- В данных по товарам `Pearson r` между ценой и конверсией равен -0.7. Как это интерпретировать?
- У вас 100 наблюдений, где почти нет связи между `x` и `y`, но есть одна точка с очень большим `x` и `y`. После добавления этой точки `Pearson r` стал 0.8. Что это чаще всего означает?
- Конверсия растет со скидкой до порога, а затем почти не меняется. При этом `Pearson r` между скидкой и конверсией близок к 0. Какой вывод корректен?
- Вы видите положительную `correlation` между продажами мороженого и количеством утоплений по дням. Это типичный пример спуриозной (`spurious`) связи. Что наиболее вероятно объясняет наблюдение?
- Все вопросы по «Корреляция и регрессия» →