В агрегированных данных корреляция между X и Y положительная, но если разбить по сегментам, внутри каждого сегмента связь отрицательная. Как корректнее всего это интерпретировать?

AЭто однозначно ошибка в данных, потому что знак связи между двумя переменными в принципе не может меняться при дополнительной разбивке по сегментам
BЭто означает причинно-следственную связь: X точно вызывает Y, просто эффект по-разному проявляется в разных сегментах и поэтому общий тренд другой
CЭто похоже на парадокс Симпсона: нужно смотреть данные в разрезе сегментов через раздельные графики и линии тренда и не делать причинных выводов из агрегата
DВ такой ситуации проще всего убрать сегментирующую переменную из данных, чтобы общий тренд не противоречил картине внутри отдельных сегментов
Правильный ответ. Противоположные тренды по сегментам — частый сигнал парадокса Симпсона и смешения групп.

Разбор

Агрегирование может менять знак связи из-за разных базовых уровней и долей сегментов — это и есть парадокс Симпсона. Визуально помогают раздельные графики и линии тренда по сегментам; делать причинные выводы из одной диаграммы рассеяния нельзя. Удаление сегментирующей переменной маскирует эффект, а не объясняет его, и противоположный знак на агрегате — это нормальное математическое следствие, а не ошибка данных.

Проверь себя · 1/3разбор после ответа
Вы хотите добавить третью числовую переменную к диаграмме рассеяния (например, длительность сессии). Какое цветовое кодирование наиболее корректно?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Зависимости и scatter-графики»