В агрегированных данных корреляция между X и Y положительная, но если разбить по сегментам, внутри каждого сегмента связь отрицательная. Как корректнее всего это интерпретировать?
AЭто однозначно ошибка в данных, потому что знак связи между двумя переменными в принципе не может меняться при дополнительной разбивке по сегментам
BЭто означает причинно-следственную связь: X точно вызывает Y, просто эффект по-разному проявляется в разных сегментах и поэтому общий тренд другой
CЭто похоже на парадокс Симпсона: нужно смотреть данные в разрезе сегментов через раздельные графики и линии тренда и не делать причинных выводов из агрегата
DВ такой ситуации проще всего убрать сегментирующую переменную из данных, чтобы общий тренд не противоречил картине внутри отдельных сегментов
Правильный ответ. Противоположные тренды по сегментам — частый сигнал парадокса Симпсона и смешения групп.
Разбор
Агрегирование может менять знак связи из-за разных базовых уровней и долей сегментов — это и есть парадокс Симпсона. Визуально помогают раздельные графики и линии тренда по сегментам; делать причинные выводы из одной диаграммы рассеяния нельзя. Удаление сегментирующей переменной маскирует эффект, а не объясняет его, и противоположный знак на агрегате — это нормальное математическое следствие, а не ошибка данных.
Проверь себя · 1/3разбор после ответа
Вы хотите добавить третью числовую переменную к диаграмме рассеяния (например, длительность сессии). Какое цветовое кодирование наиболее корректно?
Ещё вопросы по теме «Зависимости и scatter-графики»
- Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне отдельных наблюдений (например, `price` и `quantity`)?
- На диаграмме рассеяния посчитан коэффициент корреляции r = -0.8 между X и Y. Что это означает?
- Вы увидели на диаграмме рассеяния высокую корреляцию между числом уведомлений и оттоком. Какой вывод корректнее всего?
- На точечной диаграмме с сотнями тысяч точек всё сливается в сплошное пятно из-за наложения. Что сделать первым, чтобы увидеть структуру плотности?
- Когда добавление линии тренда на точечную диаграмму обычно наиболее уместно?
- Все вопросы по «Зависимости и scatter-графики» →