Распределения и выбросы: вопросы для собеседования (часть 2)
Гистограмма, box plot, violin plot — инструменты для визуализации распределений и обнаружения выбросов. На собеседовании спрашивают, как визуализировать распределение времени загрузки страницы или как обнаружить и обработать выбросы. Выбор между гистограммой и box plot зависит от того, что именно нужно показать аудитории.
Вопросы 6–10 из 20
6Что означает положительная `skewness` (правый перекос) у распределения выручки на пользователя?
AБольшинство пользователей имеют очень большие значения
BРаспределение строго симметрично
CЕсть длинный правый хвост: редкие очень большие значения
DДанные обязательно содержат ошибки
Ответ: Положительная `skewness` обычно означает длинный правый хвост.
Для метрик вроде выручки часто характерны редкие крупные значения, которые тянут хвост вправо. Это влияет на среднее и делает медиану более устойчивой. Вывод о наличии ошибок делать нельзя без дополнительных проверок.
7Какую ошибку часто делают, когда используют `histogram` в отчете для руководства?
AПоказывают распределение вместо того, чтобы показать `boxplot`
BДелают вывод о тренде во времени по форме распределения, хотя `histogram` не содержит информации о времени
CИспользуют слишком много цветов
DПоказывают медиану (`p50`)
Ответ: `histogram` не показывает динамику во времени, только распределение значений.
Иногда по `histogram` пытаются сказать, что метрика 'выросла', хотя видно лишь, как значения распределены в выборке. Для сравнения периодов нужны отдельные распределения по периодам или другой график. Это типичная путаница распределения и тренда.
8Нужно сравнить распределения метрики по 8 сегментам (страны). Какой график чаще всего компактнее и удобнее для сравнения разброса и `outliers`?
A`boxplot` по сегментам
B`histogram` для каждого сегмента на отдельной странице
CЛинейный график по времени
D`bar chart` со средними значениями
Ответ: `boxplot` хорошо масштабируется на много категорий и показывает `percentiles` и `outliers`.
`boxplot` позволяет на одном полотне сравнить медиану, IQR и потенциальные `outliers` по множеству сегментов. Делать отдельный `histogram` на каждый сегмент часто перегружает отчет. `bar chart` со средними скрывает `skewness` и хвосты.
9Когда `log scale` чаще всего полезна при визуализации распределения?
AКогда данные имеют сильную `skewness` и значения различаются на порядки
BКогда все значения уже лежат в узком диапазоне
CКогда вы строите временной ряд и хотите убрать сезонность
DКогда нужно заменить `percentiles` на среднее
Ответ: `log scale` помогает, когда разброс огромный и есть длинные хвосты.
Логарифмическая шкала сжимает большие значения и раскрывает структуру в области малых значений. Это полезно для метрик с тяжелыми хвостами, например выручки или длительности. Но важно подписывать ось и помнить, что визуальные расстояния интерпретируются иначе.
10Как изменение `bin width` в `histogram` чаще всего влияет на восприятие данных?
AНа форму не влияет, меняется только цвет
BМеньший `bin width` может подчеркнуть шум и локальные пики
CБольший `bin width` всегда делает распределение симметричным
D`bin width` влияет только на среднее, а не на форму
Ответ: `bin width` управляет детализацией: слишком мелко — шум, слишком крупно — сглаживание.
При малом `bin width` вы видите больше деталей, но возрастает визуальный шум. При большом `bin width` форма сглаживается и мелкие структуры могут исчезнуть. Поэтому важно подбирать биннинг осознанно и проверять устойчивость выводов.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Визуализация данных