Question 1

В `scatter plot` переменная X принимает только целые значения (например оценки 1–5), поэтому точки ложатся в вертикальные столбцы и перекрываются. Что поможет уменьшить `overplotting` и показать частоты?

Accepted Answer

`jitter` (случайное смещение точек для устранения наложения) помогает разнести совпадающие значения и увидеть плотность при дискретных осях. Когда значения повторяются, точки накладываются и скрывают количество наблюдений. `jitter` (случайное смещение точек для устранения наложения) добавляет малое смещение и делает видимыми слои точек, не меняя общий смысл графика.

Question 2

На диаграмме рассеяния для двух переменных общий рисунок кажется без связи, но вы подозреваете, что разные сегменты ведут себя по-разному. Какой приём лучше всего помогает не смешивать сегменты?

Accepted Answer

Смешение сегментов может скрыть связь; используйте фасетирование или кодирование цветом по сегменту. Когда сегменты имеют разные уровни или наклоны, общий график может выглядеть плоским из-за усреднения. Фасетирование и кодирование цветом позволяют увидеть различия между группами и корректнее интерпретировать связь внутри сегментов. Без такого разделения легко принять разнонаправленные тренды за отсутствие связи и сделать ошибочный вывод.

Question 3

В агрегированных данных корреляция между X и Y положительная, но если разбить по сегментам, внутри каждого сегмента связь отрицательная. Как корректнее всего это интерпретировать?

Accepted Answer

Противоположные тренды по сегментам — частый сигнал парадокса Симпсона и смешения групп. Агрегирование может менять знак связи из-за разных базовых уровней и долей сегментов — это и есть парадокс Симпсона. Визуально помогают раздельные графики и линии тренда по сегментам; делать причинные выводы из одной диаграммы рассеяния нельзя. Удаление сегментирующей переменной маскирует эффект, а не объясняет его, и противоположный знак на агрегате — это нормальное математическое следствие, а не ошибка данных.

Question 4

У вас десятки миллионов точек, и даже с низкой прозрачностью точечная диаграмма остаётся нечитаемой из-за перекрытия маркеров. Какой вариант визуализации чаще всего лучше?

Accepted Answer

При сильном перекрытии точек показывайте плотность: `hexbin` или 2D `heatmap` вместо точечной диаграммы. Плотностные карты агрегируют точки по ячейкам и делают видимыми структуры, которые в точечном облаке теряются под перекрывающимися маркерами. `Hexbin` и 2D `heatmap` сохраняют информацию о распределении без необходимости рисовать каждое наблюдение, поэтому хорошо работают на больших данных. Трёхмерный график без смысла только усложняет восприятие, `pie chart` по квадрантам теряет двумерную структуру, а более крупные непрозрачные маркеры лишь усиливают перекрытие.

Question 5

Нужно показать связь X и Y для 15 категорий продукта. Кодирование цветом делает легенду перегруженной, а сами цвета трудно различимы между собой. Что лучше всего сделать?

Accepted Answer

При большом числе категорий раскладка по панелям обычно читаемее, чем перегруженное кодирование цветом. Раскладка по панелям (small multiples) разделяет категории в отдельные ячейки, где тренды и плотности видны без смешения цветов. Если категорий слишком много, можно показать топ‑N и сгруппировать остальные в «прочее», сохраняя сопоставимые шкалы по осям. Кодирование цветом хорошо работает на 4–6 категориях, дальше глаз перестаёт их различать.

Зависимости и scatter-графики: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Визуализация данных