На scatter plot есть один сильный outlier далеко от основного облака. Как это чаще всего влияет на correlation и линейную trend line?
AПочти не влияет: один
outlier всегда можно игнорироватьBВлияет только на цвет точек, но не на статистику
CМожет резко изменить и
correlation, и наклон линии; стоит проверить устойчивость (например сравнить с и без выброса)DАвтоматически делает связь причинной (
causation)Правильный ответ.
outlier может сильно тянуть correlation и линейную аппроксимацию.Разбор
Один дальний пункт способен изменить наклон и сделать correlation выше или ниже, чем для основной массы. Полезно отметить выброс и проверить выводы альтернативными оценками или визуализациями.
Проверь себя · 1/3разбор после ответа
Если вы замените единицы X с метров на сантиметры (то есть умножите X на 100), что произойдёт с
correlation между X и Y?Ещё вопросы по теме «Зависимости и scatter-графики»
- Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне наблюдений (например `price` и `quantity`)?
- На `scatter plot` посчитана `correlation` r = -0.8 между X и Y. Что это означает?
- Вы увидели на `scatter plot` высокую `correlation` между числом уведомлений и churn. Какой вывод корректнее всего?
- В `scatter plot` с сотнями тысяч точек всё сливается в сплошное пятно (`overplotting`). Что сделать первым, чтобы увидеть структуру плотности?
- Когда добавление `trend line` на `scatter plot` обычно наиболее уместно?
- Все вопросы по «Зависимости и scatter-графики» →