Распределения и выбросы: вопросы для собеседования (часть 3)
Гистограмма, box plot, violin plot — инструменты для визуализации распределений и обнаружения выбросов. На собеседовании спрашивают, как визуализировать распределение времени загрузки страницы или как обнаружить и обработать выбросы. Выбор между гистограммой и box plot зависит от того, что именно нужно показать аудитории.
Вопросы 11–15 из 20
11Что чаще всего означают отдельные точки за пределами «усов» на стандартном `boxplot`?
AЭто значения выше `p75`, всегда считаются ошибками
BЭто наблюдения, отмеченные как `outliers` по правилу, связанному с `percentiles` и интерквартильным размахом
CЭто медиана и квартиль, продублированные на графике
DЭто данные, которые нельзя интерпретировать
Ответ: Точки за «усами» на `boxplot` обычно помечают `outliers` по правилу IQR.
В классическом `boxplot` «усы» часто идут до `p25 - 1.5*IQR` и `p75 + 1.5*IQR`, где `IQR = p75 - p25`. Значения за пределами этого диапазона отображаются отдельными точками. Это не автоматически ошибки, а кандидаты на проверку.
12Вы видите единичные экстремальные значения в метрике времени ответа. Что разумнее всего сделать первым шагом перед удалением `outliers`?
AСразу удалить все `outliers`, чтобы график выглядел красиво
BПроверить, не являются ли `outliers` реальными редкими случаями или ошибками логирования/единиц измерения
CЗаменить `histogram` на `bar chart`
DПосчитать только среднее и игнорировать распределение
Ответ: `outliers` могут быть и реальностью, и ошибкой — сначала диагностируйте причину.
Экстремальные значения могут отражать реальные сбои, пиковую нагрузку или редкие сценарии. Но они также могут появляться из-за ошибок единиц, таймзон или дубликатов. Перед удалением стоит проверить источники данных и контекст, а затем уже решать, как их учитывать в анализе.
13Вы сравниваете распределение выручки по двум когортам на `histogram`. Что важно сделать, чтобы сравнение было честным?
AИспользовать разные `bin width` для каждой когорты, чтобы графики были красивее
BИспользовать одинаковые границы бинов и `bin width` для обеих когорт
CПоказать только одну когорту и описать вторую словами
DСортировать бины по убыванию частоты
Ответ: Для сравнения распределений на `histogram` нужны одинаковые бины и `bin width`.
Если бины разные, визуальные различия могут быть чисто артефактами биннинга. Одинаковые границы и `bin width` дают сопоставимые столбцы. Для сильной `skewness` также полезно рассмотреть `log scale`, но одинаковость шкал должна сохраняться.
14Вы построили `histogram` и видите два пика. Какой следующий шаг помогает понять, не является ли это артефактом `bin width`?
AСделать `bin width` еще меньше, не глядя на результат
BСменить `histogram` на `boxplot` и забыть про пики
CПостроить `histogram` с несколькими значениями `bin width` и проверить, сохраняются ли два пика
DСразу удалить `outliers`, чтобы пики исчезли
Ответ: Проверяйте форму распределения при разных `bin width`, чтобы исключить артефакты биннинга.
Два пика могут быть реальной смесью подгрупп или результатом неудачного разбиения на бины. Построение нескольких `histogram` с разным `bin width` помогает понять, сохраняется ли бимодальность. Если структура устойчива, имеет смысл искать объяснение в сегментах данных.
15Вы строите `histogram` по редкой метрике и видите «зубчатую» форму: много пустых бинов и несколько заполненных. Какой наиболее вероятный фактор влияет на это?
AНеправильный `boxplot`
BСлишком маленькая выборка или слишком мелкий `bin width` для текущего объема данных
CСлишком большая `skewness` всегда делает распределение зубчатым
D`log scale` обязательно исправит это без других изменений
Ответ: При малом `n` и мелком `bin width` `histogram` выглядит рвано из-за дискретности и шума.
Если наблюдений мало, распределение по бинам получается нестабильным: часть интервалов пустует. Это может быть нормальным следствием малого объема данных, а не особенностью процесса. Попробуйте увеличить `bin width`, объединить периоды или собрать больше данных, чтобы оценка формы стала устойчивее.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Визуализация данных