В агрегированных данных correlation между X и Y положительная, но если разбить по segment, внутри каждого сегмента связь отрицательная. Как корректнее всего это интерпретировать?

AЭто обязательно ошибка данных, потому что знаки не могут меняться
BЭто означает causation: X точно вызывает Y, просто по-разному в сегментах
CЭто похоже на Simpson's paradox; нужно анализировать по сегментам (faceting, отдельные trend line) и не делать причинных выводов
DНужно просто удалить сегментирующую переменную из данных, чтобы не мешала
Правильный ответ. Противоположные тренды по сегментам — частый сигнал Simpson's paradox и смешения групп.

Разбор

Агрегирование может менять знак связи из-за разных базовых уровней и долей сегментов. Визуально помогает faceting и отдельные trend line по сегментам; вывод о causation из одного scatter делать нельзя.

Проверь себя · 1/3разбор после ответа
Вы хотите добавить третью числовую переменную в scatter plot с большим числом точек, не скрывая плотность. Что обычно предпочтительнее?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Зависимости и scatter-графики»