Вопросы по теме «Зависимости и scatter-графики»

Scatter plot показывает связь между двумя числовыми переменными — корреляцию, кластеры, выбросы. На собеседовании могут попросить визуализировать зависимость LTV от количества сессий или объяснить, как добавить третье измерение через цвет или размер точки. Scatter — незаменимый инструмент для exploratory data analysis.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Сравнения и ранжированиеДашборды и сторителлингРаспределения и выбросыОсновы визуализации и выбор графикаВременные ряды

Вопросы 15 из 20

1Вы хотите добавить третью числовую переменную в `scatter plot` с большим числом точек, не скрывая плотность. Что обычно предпочтительнее?
AКодировать третью переменную только формой маркера, даже если значений много
BИспользовать `color encoding` для третьей переменной и оставить размер точек фиксированным
CСильно увеличить размер точек и кодировать переменную площадью пузыря
DПоменять `scatter plot` на `bar chart`, чтобы было проще
Ответ: `color encoding` часто менее разрушительно для плотности, чем размер пузырей в перегруженном `scatter plot`.

Большие пузыри перекрывают точки и усиливают `overplotting`, а восприятие площади неточно. Цветовой градиент с легендой позволяет показать третью величину и сохранить читаемость распределения.

2Если вы замените единицы X с метров на сантиметры (то есть умножите X на 100), что произойдёт с `correlation` между X и Y?
A`correlation` не изменится при линейном масштабировании, хотя наклон `trend line` изменится
B`correlation` станет в 100 раз больше
C`correlation` поменяет знак
D`correlation` станет равной 0, потому что шкала другая
Ответ: `correlation` безразмерна и устойчива к линейному пересчёту единиц.

Линейное преобразование X меняет наклон линии и единицы измерения, но не меняет форму линейной связи. Поэтому `correlation` остаётся той же, что полезно помнить при сравнении графиков с разными единицами.

3Вы хотите добавить третью числовую переменную к `scatter plot` (например `session_length`). Какое `color encoding` наиболее корректно?
AИспользовать непрерывную последовательную палитру и добавить легенду шкалы
BНазначить каждому значению случайный цвет без легенды
CИспользовать разные формы маркеров для каждого числового значения
DИспользовать палитру для категорий, где цвета не упорядочены по интенсивности
Ответ: Для числовой переменной нужен непрерывный градиент в `color encoding` и понятная легенда.

Последовательная палитра отражает порядок значений и позволяет сравнивать точки. Случайные или категориальные цвета ломают интерпретацию, потому что не передают больше/меньше.

4Когда добавление `trend line` на `scatter plot` обычно наиболее уместно?
AВсегда, потому что без линии график бесполезен
BКогда нужно показать общее направление связи и модель адекватна данным (например примерно линейная зависимость)
CТолько если `correlation` равна 1.0
DТолько если оси категориальные, а не числовые
Ответ: `trend line` полезна, когда она честно суммирует структуру данных.

`trend line` помогает быстро увидеть общий тренд и сравнить группы, но может вводить в заблуждение при кластерах или нелинейности. Хорошая практика — выбрать тип линии, соответствующий данным, и не скрывать разброс.

5На `scatter plot` посчитана `correlation` r = -0.8 между X и Y. Что это означает?
AСильная положительная линейная связь: при росте X растёт Y
BСильная отрицательная линейная связь: при росте X Y обычно уменьшается
CСвязи нет вообще, точки должны быть равномерным кругом
DЭто доказательство `causation`: X вызывает изменение Y
Ответ: `correlation` описывает направление и силу линейной связи, но не причинность.

Знак `correlation` показывает направление (минус — обратная связь), а модуль близкий к 1 — сильную линейность. Даже при сильной `correlation` нельзя автоматически делать выводы о `causation`.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Визуализация данных

Сравнения и ранжированиеДашборды и сторителлингРаспределения и выбросыОсновы визуализации и выбор графикаВременные ряды