Гистограмма, box plot, violin plot — инструменты для визуализации распределений и обнаружения выбросов. На собеседовании спрашивают, как визуализировать распределение времени загрузки страницы или как обнаружить и обработать выбросы. Выбор между гистограммой и box plot зависит от того, что именно нужно показать аудитории.
Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.
Когда распределение асимметрично, редкие большие значения могут сильно сдвинуть среднее. Медиана (`p50`) и другие `percentiles` меняются меньше, потому что зависят от порядка, а не от величины хвоста. Поэтому для отчетов по тяжелым хвостам часто показывают медиану и `p90`/`p95`.
Правый хвост добавляет большие значения, которые сильно влияют на среднее. Медиана зависит от порядка и устойчивее к хвостам. Поэтому при правой `skewness` среднее часто выше медианы, и полезно показывать `percentiles` вместо одного среднего.
Время ответа часто имеет правый хвост, и среднее может скрывать проблемы в хвосте. Высокие `percentiles` показывают качество для 'медленных' случаев и хорошо дополняют медиану. Максимум часто слишком нестабилен и может быть `outlier`.
Стандартный `boxplot` показывает медиану и коробку между `p25` и `p75`. Это устойчивое описание центра и разброса без сильной чувствительности к `outliers`. «Усы» и точки обычно дополняют картину хвостов.
`histogram` группирует значения метрики в интервалы и показывает, сколько наблюдений попало в каждый интервал. Это помогает понять форму распределения, включая `skewness` и наличие хвостов. Для тренда во времени нужен другой тип графика.
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram