На диаграмме рассеяния переменная X имеет сильную асимметрию (значения от 1 до 1 000 000), а связь выглядит мультипликативной. Что чаще всего улучшит читаемость?
AОбрезать ось X до значения
1000 и убрать большие наблюдения, чтобы сосредоточиться на основной массе точекBПрименить логарифмическую шкалу для оси X (и при необходимости для оси Y) для лучшей читаемости связи
CСделать ось X категориальной по квантилям значений и уменьшить число точек на итоговом графике для читаемости
DИнвертировать ось X: большие значения окажутся слева, а маленькие справа, и это улучшит читаемость связи
Правильный ответ. Логарифмическая шкала помогает, когда важны относительные изменения и диапазон значений охватывает несколько порядков.
Разбор
На логарифмической шкале равные шаги соответствуют умножению, поэтому мультипликативные зависимости становятся ближе к линейным и лучше видны. Обрезка оси часто скрывает важные точки и может исказить выводы. Категоризация по квантилям меняет тип графика и теряет информацию о значениях, а инверсия оси не решает проблему сильной асимметрии данных.
Проверь себя · 1/3разбор после ответа
На диаграмме рассеяния посчитан коэффициент корреляции r = -0.8 между X и Y. Что это означает?
Ещё вопросы по теме «Зависимости и scatter-графики»
- Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне отдельных наблюдений (например, `price` и `quantity`)?
- На диаграмме рассеяния посчитан коэффициент корреляции r = -0.8 между X и Y. Что это означает?
- Вы увидели на диаграмме рассеяния высокую корреляцию между числом уведомлений и оттоком. Какой вывод корректнее всего?
- На точечной диаграмме с сотнями тысяч точек всё сливается в сплошное пятно из-за наложения. Что сделать первым, чтобы увидеть структуру плотности?
- Когда добавление линии тренда на точечную диаграмму обычно наиболее уместно?
- Все вопросы по «Зависимости и scatter-графики» →