В целом по всем пользователям correlation между временем загрузки и конверсией отрицательная. Но внутри каждого типа устройства correlation почти нулевая. Что это скорее всего означает?

AНужно пересчитать Pearson r, потому что он не работает
BВремя загрузки не связано с конверсией ни при каких условиях
CЭто доказывает, что линейная регрессия всегда бесполезна
DЕсть confounding из-за смешения сегментов: тип устройства влияет и на загрузку, и на конверсию, создавая агрегированный эффект
Правильный ответ. Агрегирование может создать видимую связь из-за confounding между сегментами.

Разбор

Если один сегмент устройств одновременно медленнее и хуже конвертирует, агрегированные данные покажут отрицательную связь даже при отсутствии эффекта внутри сегментов. Это похоже на парадокс Симпсона и часто сигнализирует про смешение популяции. Правильный шаг — анализировать по сегментам или контролировать тип устройства в линейная регрессия.

Проверь себя · 1/3разбор после ответа
В линейной регрессии вида y = a + b*x что означает интерсепт a?
Тренировать статистику в Telegram

Ещё вопросы по теме «Корреляция и регрессия»