У вас десятки миллионов точек, и даже с низкой прозрачностью точечная диаграмма остаётся нечитаемой из-за перекрытия маркеров. Какой вариант визуализации чаще всего лучше?
AИспользовать
hexbin (шестиугольные ячейки плотности) или 2D density/heatmap, чтобы показать плотность точек вместо отдельных маркеровBСделать график трёхмерным, добавив третью ось без смысловой нагрузки, чтобы перекрытие точек распределилось по дополнительному измерению
CПостроить
pie chart по долям точек в четырёх квадрантах координатной плоскости, чтобы оценить общее распределение наблюдений на двух осяхDУвеличить размер маркеров и убрать прозрачность, чтобы плотные области стали ещё более заметными и привлекали внимание читателя графика
Правильный ответ. При сильном перекрытии точек показывайте плотность:
hexbin или 2D heatmap вместо точечной диаграммы.Разбор
Плотностные карты агрегируют точки по ячейкам и делают видимыми структуры, которые в точечном облаке теряются под перекрывающимися маркерами. Hexbin и 2D heatmap сохраняют информацию о распределении без необходимости рисовать каждое наблюдение, поэтому хорошо работают на больших данных. Трёхмерный график без смысла только усложняет восприятие, pie chart по квадрантам теряет двумерную структуру, а более крупные непрозрачные маркеры лишь усиливают перекрытие.
Проверь себя · 1/3разбор после ответа
В
scatter plot переменная X принимает только целые значения (например оценки 1–5), поэтому точки ложатся в вертикальные столбцы и перекрываются. Что поможет уменьшить overplotting и показать частоты?Ещё вопросы по теме «Зависимости и scatter-графики»
- Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне отдельных наблюдений (например, `price` и `quantity`)?
- На диаграмме рассеяния посчитан коэффициент корреляции r = -0.8 между X и Y. Что это означает?
- Вы увидели на диаграмме рассеяния высокую корреляцию между числом уведомлений и оттоком. Какой вывод корректнее всего?
- На точечной диаграмме с сотнями тысяч точек всё сливается в сплошное пятно из-за наложения. Что сделать первым, чтобы увидеть структуру плотности?
- Когда добавление линии тренда на точечную диаграмму обычно наиболее уместно?
- Все вопросы по «Зависимости и scatter-графики» →