На точечной диаграмме видно два отчётливых облака точек, но общая корреляция слабая. Какой следующий шаг чаще всего помогает понять природу этих облаков?
AПровести единую общую линию тренда через все точки и не учитывать видимое деление на облака на графике
BРаскрасить точки по кандидатным признакам (канал, регион, тариф) или сделать панели и сравнить связь внутри групп
CПеревести оси в логарифмический масштаб без проверки необходимости и распределения значений по осям
DСделать вывод об отсутствии связи на основании низкого общего коэффициента корреляции по всем точкам сразу
Правильный ответ. Кластеры на точечной диаграмме часто означают скрытый сегмент; их стоит показать через цветовое кодирование или разбиение на панели.
Разбор
Два облака могут соответствовать разным типам пользователей, тарифам или рынкам. Подсветка категорий и разбиение на панели помогает проверить гипотезу о сегментации и не смешивать разные режимы поведения в одном выводе. Общий коэффициент корреляции по смешанным группам часто маскирует сильную связь внутри каждой и приводит к неправильным выводам.
Проверь себя · 1/3разбор после ответа
Вы построили диаграмму рассеяния по дневным точкам и хотите показать, как связь менялась со временем, не превращая график в линию. Что можно сделать?
Ещё вопросы по теме «Зависимости и scatter-графики»
- Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне отдельных наблюдений (например, `price` и `quantity`)?
- На диаграмме рассеяния посчитан коэффициент корреляции r = -0.8 между X и Y. Что это означает?
- Вы увидели на диаграмме рассеяния высокую корреляцию между числом уведомлений и оттоком. Какой вывод корректнее всего?
- На точечной диаграмме с сотнями тысяч точек всё сливается в сплошное пятно из-за наложения. Что сделать первым, чтобы увидеть структуру плотности?
- Когда добавление линии тренда на точечную диаграмму обычно наиболее уместно?
- Все вопросы по «Зависимости и scatter-графики» →