В целом по всем пользователям корреляция между временем загрузки и конверсией отрицательная. Но внутри каждого типа устройства корреляция почти нулевая. Что это скорее всего означает?
AНужно пересчитать коэффициент корреляции Пирсона другой формулой, потому что внутри сегментов он сломан и не считается
BВремя загрузки и конверсия не связаны ни при каких условиях, и сегменты тут просто маскируют истинное отсутствие связи
CЭто означает, что линейная регрессия в принципе бесполезна для таких данных и применять её больше нельзя
DВозможно смешение сегментов: тип устройства влияет и на загрузку, и на конверсию, создавая агрегированный эффект
Правильный ответ. Агрегирование может создать видимую связь из-за смешения сегментов, хотя внутри каждого её нет.
Разбор
Если один тип устройств одновременно медленнее и хуже конвертирует, агрегированные данные покажут отрицательную связь даже при отсутствии эффекта внутри сегментов. Это похоже на парадокс Симпсона и часто сигнализирует о смешении популяции, а не о настоящей зависимости. Правильный шаг — анализировать по сегментам или контролировать тип устройства в линейной регрессии. Делать вывод по агрегату без разбивки в таких случаях опасно.
Проверь себя · 1/3разбор после ответа
Вы подозреваете, что связь между числом пушей и оттоком объясняется тем, что пуши чаще получают новички. Что лучше сделать, чтобы снизить влияние смешивающего фактора в анализе?
Ещё вопросы по теме «Корреляция и регрессия»
- В отчёте нашли положительную корреляцию между числом пушей на пользователя и выручкой. Какой вывод наиболее корректен?
- В данных по товарам коэффициент корреляции Пирсона между ценой и конверсией равен -0.7. Как это интерпретировать?
- У вас 100 наблюдений, где почти нет связи между `x` и `y`, но есть одна точка с очень большим `x` и `y`. После добавления этой точки `Pearson r` стал 0.8. Что это чаще всего означает?
- Конверсия растёт со скидкой до порога, а затем почти не меняется. При этом `Pearson r` между скидкой и конверсией близок к 0. Какой вывод корректен?
- Вы видите положительную корреляцию между продажами мороженого и количеством утоплений по дням. Это типичный пример ложной связи. Что наиболее вероятно объясняет наблюдение?
- Все вопросы по «Корреляция и регрессия» →