В целом по всем пользователям correlation между временем загрузки и конверсией отрицательная. Но внутри каждого типа устройства correlation почти нулевая. Что это скорее всего означает?
AНужно пересчитать
Pearson r, потому что он не работаетBВремя загрузки не связано с конверсией ни при каких условиях
CЭто доказывает, что
линейная регрессия всегда бесполезнаDЕсть
confounding из-за смешения сегментов: тип устройства влияет и на загрузку, и на конверсию, создавая агрегированный эффектПравильный ответ. Агрегирование может создать видимую связь из-за
confounding между сегментами.Разбор
Если один сегмент устройств одновременно медленнее и хуже конвертирует, агрегированные данные покажут отрицательную связь даже при отсутствии эффекта внутри сегментов. Это похоже на парадокс Симпсона и часто сигнализирует про смешение популяции. Правильный шаг — анализировать по сегментам или контролировать тип устройства в линейная регрессия.
Проверь себя · 1/3разбор после ответа
В
линейной регрессии вида y = a + b*x что означает интерсепт a?Ещё вопросы по теме «Корреляция и регрессия»
- В отчете нашли положительную `correlation` между числом пушей на пользователя и выручкой. Какой вывод наиболее корректен?
- В данных по товарам `Pearson r` между ценой и конверсией равен -0.7. Как это интерпретировать?
- У вас 100 наблюдений, где почти нет связи между `x` и `y`, но есть одна точка с очень большим `x` и `y`. После добавления этой точки `Pearson r` стал 0.8. Что это чаще всего означает?
- Конверсия растет со скидкой до порога, а затем почти не меняется. При этом `Pearson r` между скидкой и конверсией близок к 0. Какой вывод корректен?
- Вы видите положительную `correlation` между продажами мороженого и количеством утоплений по дням. Это типичный пример спуриозной (`spurious`) связи. Что наиболее вероятно объясняет наблюдение?
- Все вопросы по «Корреляция и регрессия» →