В агрегированных данных `correlation` между X и Y положительная, но если разбить по `segment`, внутри каждого сегмента связь отрицательная. Как корректнее всего это интерпретировать?

Question

Карьерник · Accepted Answer

Правильный ответ: Это обязательно ошибка данных, потому что знаки не могут меняться. Противоположные тренды по сегментам — частый сигнал `Simpson's paradox` и смешения групп. Агрегирование может менять знак связи из-за разных базовых уровней и долей сегментов. Визуально помогает `faceting` и отдельные `trend line` по сегментам; вывод о `causation` из одного scatter делать нельзя.

Разбор

Ещё вопросы по теме «Зависимости и scatter-графики»