Зависимости и scatter-графики: вопросы для собеседования (часть 3)
Scatter plot показывает связь между двумя числовыми переменными — корреляцию, кластеры, выбросы. На собеседовании могут попросить визуализировать зависимость LTV от количества сессий или объяснить, как добавить третье измерение через цвет или размер точки. Scatter — незаменимый инструмент для exploratory data analysis.
Вопросы 11–15 из 20
11На `scatter plot` связь монотонная, но заметно нелинейная (точки образуют кривую). Какая мера `correlation` чаще подходит для описания такой монотонности?
A`R^2` из линейной регрессии
B`p-value` как мера силы связи
C`Pearson correlation`
D`Spearman correlation`
Ответ: `Spearman correlation` измеряет монотонную связь по рангам и устойчивее к нелинейности.
`Pearson correlation` отражает линейную зависимость и может быть низкой даже при сильной кривой. `Spearman` использует ранги и лучше описывает ситуацию, когда рост X ведёт к росту или падению Y без требования линейности.
12На `scatter plot` видно два отчётливых облака точек, но общая `correlation` слабая. Какой следующий шаг чаще всего помогает понять природу этих облаков?
AПровести одну общую линейную `trend line` и игнорировать облака
BПопробовать раскрасить точки через `color encoding` по кандидатным признакам (канал, регион, тариф) или сделать `faceting` и сравнить внутри групп
CСделать оси логарифмическими, не проверяя необходимость `log scale`
DСделать вывод, что связи нет, потому что `correlation` низкая
Ответ: Кластеры часто означают скрытый `segment`; их стоит показать через `color encoding` или `faceting`.
Два облака могут соответствовать разным типам пользователей, тарифам или рынкам. Подсветка категорий и разбиение на панели помогает проверить гипотезу о сегментации и не смешивать разные режимы поведения в одном выводе.
13На `scatter plot` зависимость выглядит U‑образной: при малых и больших X значения Y выше, а в середине ниже. При этом `correlation` близка к 0. Что корректнее всего сказать или сделать?
AРаз `correlation` около 0, связи нет и график можно не анализировать
BНулевая `correlation` не исключает нелинейной связи; стоит добавить нелинейную `trend line` (например `loess` (локальная взвешенная регрессия — кривая сглаживания)) или изменить представление
CНужно обязательно применить `log scale`, тогда `correlation` станет высокой
DНужно удалить половину точек, чтобы получилась линейная зависимость
Ответ: `correlation` описывает линейность; нелинейная связь может существовать при значении около 0.
U‑образный рисунок — это связь, но не линейная, поэтому `Pearson` может давать около нуля. Нелинейная `trend line` или разбиение диапазона X помогает показать реальную форму зависимости.
14Вы увидели на `scatter plot` высокую `correlation` между числом уведомлений и churn. Какой вывод корректнее всего?
AУведомления точно увеличивают churn, нужно немедленно отключить
BChurn точно заставляет систему отправлять больше уведомлений
CПо одной `correlation` нельзя утверждать `causation`; нужны эксперимент или контроль смешивающих факторов
DЕсли `correlation` высокая, то ошибок измерения быть не может
Ответ: `correlation` не равна `causation` без дизайна, который исключает конфаундеры.
Связь может быть вызвана третьим фактором, например активностью: активным шлют больше, и они же меньше уходят (или наоборот). Для причинного вывода нужны рандомизация, квази‑эксперимент или хотя бы тщательный контроль конфаундеров.
15Вы показываете два `scatter plot` в `faceting` для разных сегментов и хотите честно сравнить распределения. Что важно для корректного сравнения?
AИспользовать разные масштабы осей в каждой панели, чтобы точки занимали весь экран
BСпрятать подписи осей в одной из панелей, чтобы не отвлекали
CПовернуть один график на 90 градусов для разнообразия
DДержать одинаковые пределы и шкалы осей во всех панелях (если цель — сравнение)
Ответ: Для сравнения сегментов через `faceting` обычно нужны согласованные оси и масштабы.
Если оси разные, визуально можно создать или скрыть тренд и плотность. Фиксация шкал делает сравнение честным, особенно когда вы оцениваете различия в разбросе, наклоне и кластерах.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Визуализация данных