Распределения и выбросы: вопросы для собеседования (часть 2)

Гистограмма, box plot, violin plot — инструменты для визуализации распределений и обнаружения выбросов. На собеседовании спрашивают, как визуализировать распределение времени загрузки страницы или как обнаружить и обработать выбросы. Выбор между гистограммой и box plot зависит от того, что именно нужно показать аудитории.

Сравнения и ранжированиеДашборды и сторителлингОсновы визуализации и выбор графикаЗависимости и scatter-графикиВременные ряды

Вопросы 610 из 20

6Что означает положительная `skewness` (правый перекос) у распределения выручки на пользователя?
AБольшинство пользователей имеют очень большие значения
BРаспределение строго симметрично
CЕсть длинный правый хвост: редкие очень большие значения
DДанные обязательно содержат ошибки
Ответ: Положительная `skewness` обычно означает длинный правый хвост.

Для метрик вроде выручки часто характерны редкие крупные значения, которые тянут хвост вправо. Это влияет на среднее и делает медиану более устойчивой. Вывод о наличии ошибок делать нельзя без дополнительных проверок.

7Какую ошибку часто делают, когда используют `histogram` в отчете для руководства?
AПоказывают распределение вместо того, чтобы показать `boxplot`
BДелают вывод о тренде во времени по форме распределения, хотя `histogram` не содержит информации о времени
CИспользуют слишком много цветов
DПоказывают медиану (`p50`)
Ответ: `histogram` не показывает динамику во времени, только распределение значений.

Иногда по `histogram` пытаются сказать, что метрика 'выросла', хотя видно лишь, как значения распределены в выборке. Для сравнения периодов нужны отдельные распределения по периодам или другой график. Это типичная путаница распределения и тренда.

8Нужно сравнить распределения метрики по 8 сегментам (страны). Какой график чаще всего компактнее и удобнее для сравнения разброса и `outliers`?
A`boxplot` по сегментам
B`histogram` для каждого сегмента на отдельной странице
CЛинейный график по времени
D`bar chart` со средними значениями
Ответ: `boxplot` хорошо масштабируется на много категорий и показывает `percentiles` и `outliers`.

`boxplot` позволяет на одном полотне сравнить медиану, IQR и потенциальные `outliers` по множеству сегментов. Делать отдельный `histogram` на каждый сегмент часто перегружает отчет. `bar chart` со средними скрывает `skewness` и хвосты.

9Когда `log scale` чаще всего полезна при визуализации распределения?
AКогда данные имеют сильную `skewness` и значения различаются на порядки
BКогда все значения уже лежат в узком диапазоне
CКогда вы строите временной ряд и хотите убрать сезонность
DКогда нужно заменить `percentiles` на среднее
Ответ: `log scale` помогает, когда разброс огромный и есть длинные хвосты.

Логарифмическая шкала сжимает большие значения и раскрывает структуру в области малых значений. Это полезно для метрик с тяжелыми хвостами, например выручки или длительности. Но важно подписывать ось и помнить, что визуальные расстояния интерпретируются иначе.

10Как изменение `bin width` в `histogram` чаще всего влияет на восприятие данных?
AНа форму не влияет, меняется только цвет
BМеньший `bin width` может подчеркнуть шум и локальные пики
CБольший `bin width` всегда делает распределение симметричным
D`bin width` влияет только на среднее, а не на форму
Ответ: `bin width` управляет детализацией: слишком мелко — шум, слишком крупно — сглаживание.

При малом `bin width` вы видите больше деталей, но возрастает визуальный шум. При большом `bin width` форма сглаживается и мелкие структуры могут исчезнуть. Поэтому важно подбирать биннинг осознанно и проверять устойчивость выводов.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Визуализация данных

Сравнения и ранжированиеДашборды и сторителлингОсновы визуализации и выбор графикаЗависимости и scatter-графикиВременные ряды