Вы хотите добавить третью числовую переменную в scatter plot с большим числом точек, не скрывая плотность. Что обычно предпочтительнее?
AКодировать третью переменную только формой маркера, даже если значений много
BИспользовать
color encoding для третьей переменной и оставить размер точек фиксированнымCСильно увеличить размер точек и кодировать переменную площадью пузыря
DПоменять
scatter plot на bar chart, чтобы было прощеПравильный ответ.
color encoding часто менее разрушительно для плотности, чем размер пузырей в перегруженном scatter plot.Разбор
Большие пузыри перекрывают точки и усиливают overplotting, а восприятие площади неточно. Цветовой градиент с легендой позволяет показать третью величину и сохранить читаемость распределения.
Проверь себя · 1/3разбор после ответа
Если вы замените единицы X с метров на сантиметры (то есть умножите X на 100), что произойдёт с
correlation между X и Y?Ещё вопросы по теме «Зависимости и scatter-графики»
- Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне наблюдений (например `price` и `quantity`)?
- На `scatter plot` посчитана `correlation` r = -0.8 между X и Y. Что это означает?
- Вы увидели на `scatter plot` высокую `correlation` между числом уведомлений и churn. Какой вывод корректнее всего?
- В `scatter plot` с сотнями тысяч точек всё сливается в сплошное пятно (`overplotting`). Что сделать первым, чтобы увидеть структуру плотности?
- Когда добавление `trend line` на `scatter plot` обычно наиболее уместно?
- Все вопросы по «Зависимости и scatter-графики» →