Зависимости и scatter-графики: вопросы для собеседования (часть 4)

Scatter plot показывает связь между двумя числовыми переменными — корреляцию, кластеры, выбросы. На собеседовании могут попросить визуализировать зависимость LTV от количества сессий или объяснить, как добавить третье измерение через цвет или размер точки. Scatter — незаменимый инструмент для exploratory data analysis.

Сравнения и ранжированиеДашборды и сторителлингРаспределения и выбросыОсновы визуализации и выбор графикаВременные ряды

Вопросы 1620 из 20

16В `scatter plot` переменная X принимает только целые значения (например оценки 1–5), поэтому точки ложатся в вертикальные столбцы и перекрываются. Что поможет уменьшить `overplotting` и показать частоты?
AДобавить `jitter` (случайное смещение точек для устранения наложения) по X (небольшое случайное смещение) или использовать `beeswarm` (расстановка точек без перекрытия)-подобное расположение
BЗаменить `scatter plot` на `bar chart` с подсчётом точек в каждой категории — это покажет частоты, хотя потеряет распределение внутри групп.
CУменьшить размер точек до минимума и добавить `trend line` — мелкие точки меньше перекрываются, а линия тренда покажет общую закономерность.
DСжать диапазон оси X и увеличить масштаб графика — при большем разрешении точки визуально расходятся и наложение становится менее заметным.
Ответ: `jitter` (случайное смещение точек для устранения наложения) помогает разнести совпадающие значения и увидеть плотность при дискретных осях.

Когда значения повторяются, точки накладываются и скрывают количество наблюдений. `jitter` (случайное смещение точек для устранения наложения) добавляет малое смещение и делает видимыми слои точек, не меняя общий смысл графика.

17В `scatter plot` для двух переменных общий рисунок кажется без связи, но вы подозреваете, что разные сегменты ведут себя по-разному. Какой приём лучше всего помогает не смешивать сегменты?
AУвеличить толщину сетки на графике
BСпрятать легенду, чтобы не отвлекала
CПостроить один общий `trend line`, чтобы он всё объяснил
DРазделить данные по `segment` через `faceting` или сделать `color encoding` по сегменту
Ответ: Смешение сегментов может скрыть связь; используйте `faceting` или `color encoding`.

Когда сегменты имеют разные уровни или наклоны, общий график может выглядеть плоским. `faceting` и `color encoding` позволяют увидеть различия между группами и корректнее интерпретировать `correlation` внутри сегментов.

18В агрегированных данных `correlation` между X и Y положительная, но если разбить по `segment`, внутри каждого сегмента связь отрицательная. Как корректнее всего это интерпретировать?
AЭто обязательно ошибка данных, потому что знаки не могут меняться
BЭто означает `causation`: X точно вызывает Y, просто по-разному в сегментах
CЭто похоже на `Simpson's paradox`; нужно анализировать по сегментам (`faceting`, отдельные `trend line`) и не делать причинных выводов
DНужно просто удалить сегментирующую переменную из данных, чтобы не мешала
Ответ: Противоположные тренды по сегментам — частый сигнал `Simpson's paradox` и смешения групп.

Агрегирование может менять знак связи из-за разных базовых уровней и долей сегментов. Визуально помогает `faceting` и отдельные `trend line` по сегментам; вывод о `causation` из одного scatter делать нельзя.

19У вас десятки миллионов точек, и даже с низким `alpha` `scatter plot` остаётся нечитаемым из‑за `overplotting`. Какой вариант визуализации чаще всего лучше?
AИспользовать `hexbin` (шестиугольные бины плотности) или 2D `density`/`heatmap`, чтобы показать плотность вместо отдельных точек
BСделать 3D график, добавив третью ось без смысла
CПостроить `pie chart` по долям точек в квадрантах
DУвеличить размер маркеров, чтобы точки перекрывали друг друга ещё сильнее
Ответ: При экстремальном `overplotting` показывайте плотность: `hexbin` (шестиугольные бины плотности) или 2D `density`.

Плотностные карты агрегируют точки по ячейкам и делают видимыми структуры, которые в точечном облаке теряются. Это сохраняет информацию о распределении без необходимости рисовать каждую точку.

20Нужно показать связь X и Y для 15 категорий продукта. `color encoding` делает легенду перегруженной и цвета трудно различимы. Что лучше всего сделать?
AОставить `color encoding` и добавить ещё больше цветов для точности
BСпрятать легенду, чтобы она не мешала
CПостроить один общий `trend line` без учёта категорий
DИспользовать `faceting` (small multiples) по категориям или по топ‑N и держать одинаковые оси для сравнения
Ответ: При большом числе категорий `faceting` обычно читаемее, чем перегруженный `color encoding`.

`faceting` разделяет категории в отдельные панели, где тренды и плотности видны без смешения цветов. Если категорий слишком много, можно показать топ‑N и объединить остальные, сохраняя сопоставимые шкалы.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Визуализация данных

Сравнения и ранжированиеДашборды и сторителлингРаспределения и выбросыОсновы визуализации и выбор графикаВременные ряды