В агрегированных данных correlation между X и Y положительная, но если разбить по segment, внутри каждого сегмента связь отрицательная. Как корректнее всего это интерпретировать?
AЭто обязательно ошибка данных, потому что знаки не могут меняться
BЭто означает
causation: X точно вызывает Y, просто по-разному в сегментахCЭто похоже на
Simpson's paradox; нужно анализировать по сегментам (faceting, отдельные trend line) и не делать причинных выводовDНужно просто удалить сегментирующую переменную из данных, чтобы не мешала
Правильный ответ. Противоположные тренды по сегментам — частый сигнал
Simpson's paradox и смешения групп.Разбор
Агрегирование может менять знак связи из-за разных базовых уровней и долей сегментов. Визуально помогает faceting и отдельные trend line по сегментам; вывод о causation из одного scatter делать нельзя.
Проверь себя · 1/3разбор после ответа
Вы хотите добавить третью числовую переменную в
scatter plot с большим числом точек, не скрывая плотность. Что обычно предпочтительнее?Ещё вопросы по теме «Зависимости и scatter-графики»
- Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне наблюдений (например `price` и `quantity`)?
- На `scatter plot` посчитана `correlation` r = -0.8 между X и Y. Что это означает?
- Вы увидели на `scatter plot` высокую `correlation` между числом уведомлений и churn. Какой вывод корректнее всего?
- В `scatter plot` с сотнями тысяч точек всё сливается в сплошное пятно (`overplotting`). Что сделать первым, чтобы увидеть структуру плотности?
- Когда добавление `trend line` на `scatter plot` обычно наиболее уместно?
- Все вопросы по «Зависимости и scatter-графики» →