Зависимости и scatter-графики: вопросы для собеседования (часть 2)
Scatter plot показывает связь между двумя числовыми переменными — корреляцию, кластеры, выбросы. На собеседовании могут попросить визуализировать зависимость LTV от количества сессий или объяснить, как добавить третье измерение через цвет или размер точки. Scatter — незаменимый инструмент для exploratory data analysis.
Вопросы 6–10 из 20
6Какой график лучше всего подходит, чтобы показать связь между двумя числовыми переменными на уровне наблюдений (например `price` и `quantity`)?
A`scatter plot` (каждый заказ — точка)
B`bar chart` со средними по категориям
C`pie chart` по долям категорий
D`histogram` по распределению `price`
Ответ: Для двух числовых переменных базовый выбор — `scatter plot`.
`scatter plot` показывает пары значений и позволяет увидеть форму связи, кластеры и выбросы. Другие графики либо агрегируют данные, либо показывают распределение одной переменной, а не отношения.
7Вы построили `scatter plot` по дневным точкам и хотите показать, как связь менялась со временем, не превращая график в линию. Что можно сделать?
AСлучайно перемешать точки, чтобы времени не было видно
BУбрать подписи дат, чтобы график выглядел чище
CКодировать время через `color encoding` (градиент) или использовать `connected scatter`, чтобы сохранить порядок
DПрименить `log scale` к обеим осям независимо от данных
Ответ: Чтобы показать порядок, добавьте кодирование времени через `color encoding` или соедините точки.
Обычный `scatter plot` теряет информацию о последовательности. Градиент по времени или `connected scatter` помогает увидеть траекторию изменения и отличать ранние и поздние точки.
8В `scatter plot` с сотнями тысяч точек всё сливается в сплошное пятно (`overplotting`). Что сделать первым, чтобы увидеть структуру плотности?
AУвеличить размер маркеров, чтобы точки были заметнее
BУбрать подписи осей, чтобы освободить место
CПоменять местами оси X и Y, чтобы точки разошлись
DСделать точки полупрозрачными, уменьшив `alpha`
Ответ: При `overplotting` помогает прозрачность (`alpha`) и приёмы отображения плотности.
Уменьшение `alpha` позволяет видеть области высокой и низкой плотности, даже если точки перекрываются. Это простой первый шаг перед более тяжёлыми приёмами вроде биннинга или `faceting`.
9На `scatter plot` переменная X имеет сильную асимметрию (значения от 1 до 1 000 000), а связь выглядит мультипликативной. Что чаще всего улучшит читаемость?
AОбрезать ось X до 1000, чтобы убрать большие значения
BСделать ось X категориальной по квантилям, чтобы было меньше точек
CИспользовать `log scale` для X (и при необходимости для Y)
DИнвертировать ось X, чтобы большие значения были слева
Ответ: `log scale` помогает, когда важны относительные изменения и диапазон значений огромный.
На `log scale` равные шаги соответствуют умножению, поэтому мультипликативные зависимости становятся ближе к линейным и лучше видны. Обрезка оси часто скрывает важные точки и может исказить выводы.
10На `scatter plot` есть один сильный `outlier` далеко от основного облака. Как это чаще всего влияет на `correlation` и линейную `trend line`?
AПочти не влияет: один `outlier` всегда можно игнорировать
BВлияет только на цвет точек, но не на статистику
CМожет резко изменить и `correlation`, и наклон линии; стоит проверить устойчивость (например сравнить с и без выброса)
DАвтоматически делает связь причинной (`causation`)
Ответ: `outlier` может сильно тянуть `correlation` и линейную аппроксимацию.
Один дальний пункт способен изменить наклон и сделать `correlation` выше или ниже, чем для основной массы. Полезно отметить выброс и проверить выводы альтернативными оценками или визуализациями.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Визуализация данных