В целом по всем пользователям корреляция между временем загрузки и конверсией отрицательная. Но внутри каждого типа устройства корреляция почти нулевая. Что это скорее всего означает?

AНужно пересчитать коэффициент корреляции Пирсона другой формулой, потому что внутри сегментов он сломан и не считается
BВремя загрузки и конверсия не связаны ни при каких условиях, и сегменты тут просто маскируют истинное отсутствие связи
CЭто означает, что линейная регрессия в принципе бесполезна для таких данных и применять её больше нельзя
DВозможно смешение сегментов: тип устройства влияет и на загрузку, и на конверсию, создавая агрегированный эффект
Правильный ответ. Агрегирование может создать видимую связь из-за смешения сегментов, хотя внутри каждого её нет.

Разбор

Если один тип устройств одновременно медленнее и хуже конвертирует, агрегированные данные покажут отрицательную связь даже при отсутствии эффекта внутри сегментов. Это похоже на парадокс Симпсона и часто сигнализирует о смешении популяции, а не о настоящей зависимости. Правильный шаг — анализировать по сегментам или контролировать тип устройства в линейной регрессии. Делать вывод по агрегату без разбивки в таких случаях опасно.

Проверь себя · 1/3разбор после ответа
Вы подозреваете, что связь между числом пушей и оттоком объясняется тем, что пуши чаще получают новички. Что лучше сделать, чтобы снизить влияние смешивающего фактора в анализе?
Тренировать статистику в Telegram

Ещё вопросы по теме «Корреляция и регрессия»