Распределения и выбросы: вопросы для собеседования (часть 4)
Гистограмма, box plot, violin plot — инструменты для визуализации распределений и обнаружения выбросов. На собеседовании спрашивают, как визуализировать распределение времени загрузки страницы или как обнаружить и обработать выбросы. Выбор между гистограммой и box plot зависит от того, что именно нужно показать аудитории.
Вопросы 16–20 из 20
16Какой признак скорее говорит, что `outliers` — это ошибка данных, а не редкий реальный случай?
AЗначения превышают физически возможные пределы или имеют неправильные единицы (например, миллисекунды вместо секунд)
B`outliers` встречаются только у платящих пользователей
C`outliers` встречаются только в выходные
DРаспределение имеет правый хвост
Ответ: Нарушение физических/логических ограничений часто указывает на ошибку данных.
Если значение невозможно по смыслу метрики, это сильный сигнал проблем с качеством данных, например перепутанные единицы. Редкие реальные случаи обычно остаются в пределах возможного, даже если они экстремальны. Поэтому полезно иметь инварианты и проверки диапазонов для метрик.
17Какой риск чаще всего возникает при использовании `log scale` без явного объяснения в отчёте?
AГрафик станет менее точным математически
BДанные автоматически потеряют `outliers`
CЧитатель может неверно интерпретировать расстояния и относительные изменения, потому что ось не линейная
DНельзя использовать `percentiles` вместе с `log scale`
Ответ: На `log scale` визуальные расстояния соответствуют мультипликативным, а не аддитивным изменениям.
Логарифмическая шкала меняет смысл расстояний: равные отрезки по оси означают одинаковые множители. Если это не обозначить, читатель может перепутать рост в 2 раза с ростом на фиксированную величину. Поэтому ось и подписи должны явно указывать на `log scale`.
18В метрике `outliers` встречаются регулярно и совпадают по времени с пиками нагрузки. Какое действие наиболее корректно с точки зрения интерпретации?
AУдалить `outliers` всегда, потому что они мешают среднему
BСчитать `outliers` частью реального поведения системы и анализировать их отдельно, например через `percentiles` и разрез по нагрузке
CЗаменить `boxplot` на `histogram` и не думать о причинах
DСчитать, что это обязательно ошибка данных
Ответ: Повторяющиеся `outliers` могут отражать реальные условия, а не ошибки.
Если экстремальные значения систематичны и связаны с нагрузкой, это сигнал качества сервиса, а не мусор. Тогда полезно показывать хвосты через `p95`/`p99` и сегментировать по уровню трафика. Удаление таких наблюдений может скрыть важную проблему.
19Какой частый технический нюанс нужно учитывать при использовании `log scale` для метрики, где бывают нули?
AНули на `log scale` нельзя отобразить напрямую, нужно продумать трансформацию или фильтр
B`log scale` автоматически заменяет нули на среднее
CНули превращаются в `outliers`
D`log scale` работает только с целыми числами
Ответ: На `log scale` значение 0 не определено, поэтому нужна обработка нулей.
Логарифм нуля не определен, поэтому прямое применение `log scale` ломает визуализацию. Обычно используют сдвиг (например, `log1p`) или отдельно показывают долю нулей. Важно описать выбранный подход, чтобы не исказить интерпретацию распределения.
20Вы решили ограничить значения метрики сверху (например, каппинг `outliers`) перед визуализацией. Какое сообщение в отчете наиболее корректно?
AНичего не сообщать, это техническая деталь
BСообщить, что данные были преобразованы: описать порог каппинга и показать, как это влияет на `percentiles` или выводы
CСказать, что `outliers` удалены, значит проблема решена
DСказать, что `log scale` эквивалентна удалению `outliers`
Ответ: Любая обработка `outliers` должна быть прозрачной и воспроизводимой.
Каппинг меняет распределение и может влиять на сравнения, поэтому его нужно явно документировать. Хорошая практика — указать порог и показать влияние на ключевые `percentiles` или на вывод. Это помогает избежать недоверия и неправильной интерпретации результатов.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в TelegramДругие темы: Визуализация данных