На scatter plot переменная X имеет сильную асимметрию (значения от 1 до 1 000 000), а связь выглядит мультипликативной. Что чаще всего улучшит читаемость?
AОбрезать ось X до 1000, чтобы убрать большие значения
BСделать ось X категориальной по квантилям, чтобы было меньше точек
CИспользовать
log scale для X (и при необходимости для Y)DИнвертировать ось X, чтобы большие значения были слева
Правильный ответ.
log scale помогает, когда важны относительные изменения и диапазон значений огромный.Разбор
На log scale равные шаги соответствуют умножению, поэтому мультипликативные зависимости становятся ближе к линейным и лучше видны. Обрезка оси часто скрывает важные точки и может исказить выводы.
Проверь себя · 1/3разбор после ответа
Вы хотите добавить третью числовую переменную к
scatter plot (например session_length). Какое color encoding наиболее корректно?Ещё вопросы по теме «Зависимости и scatter-графики»
- Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне наблюдений (например `price` и `quantity`)?
- На `scatter plot` посчитана `correlation` r = -0.8 между X и Y. Что это означает?
- Вы увидели на `scatter plot` высокую `correlation` между числом уведомлений и churn. Какой вывод корректнее всего?
- В `scatter plot` с сотнями тысяч точек всё сливается в сплошное пятно (`overplotting`). Что сделать первым, чтобы увидеть структуру плотности?
- Когда добавление `trend line` на `scatter plot` обычно наиболее уместно?
- Все вопросы по «Зависимости и scatter-графики» →