У вас десятки миллионов точек, и даже с низким alpha scatter plot остаётся нечитаемым из‑за overplotting. Какой вариант визуализации чаще всего лучше?
AИспользовать
hexbin (шестиугольные бины плотности) или 2D density/heatmap, чтобы показать плотность вместо отдельных точекBСделать 3D график, добавив третью ось без смысла
CПостроить
pie chart по долям точек в квадрантахDУвеличить размер маркеров, чтобы точки перекрывали друг друга ещё сильнее
Правильный ответ. При экстремальном
overplotting показывайте плотность: hexbin (шестиугольные бины плотности) или 2D density.Разбор
Плотностные карты агрегируют точки по ячейкам и делают видимыми структуры, которые в точечном облаке теряются. Это сохраняет информацию о распределении без необходимости рисовать каждую точку.
Проверь себя · 1/3разбор после ответа
На
scatter plot переменная X имеет сильную асимметрию (значения от 1 до 1 000 000), а связь выглядит мультипликативной. Что чаще всего улучшит читаемость?Ещё вопросы по теме «Зависимости и scatter-графики»
- Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне наблюдений (например `price` и `quantity`)?
- На `scatter plot` посчитана `correlation` r = -0.8 между X и Y. Что это означает?
- Вы увидели на `scatter plot` высокую `correlation` между числом уведомлений и churn. Какой вывод корректнее всего?
- В `scatter plot` с сотнями тысяч точек всё сливается в сплошное пятно (`overplotting`). Что сделать первым, чтобы увидеть структуру плотности?
- Когда добавление `trend line` на `scatter plot` обычно наиболее уместно?
- Все вопросы по «Зависимости и scatter-графики» →