В метрике outliers встречаются регулярно и совпадают по времени с пиками нагрузки. Какое действие наиболее корректно с точки зрения интерпретации?
AУдалить
outliers всегда, потому что они мешают среднемуBСчитать
outliers частью реального поведения системы и анализировать их отдельно, например через percentiles и разрез по нагрузкеCЗаменить
boxplot на histogram и не думать о причинахDСчитать, что это обязательно ошибка данных
Правильный ответ. Повторяющиеся
outliers могут отражать реальные условия, а не ошибки.Разбор
Если экстремальные значения систематичны и связаны с нагрузкой, это сигнал качества сервиса, а не мусор. Тогда полезно показывать хвосты через p95/p99 и сегментировать по уровню трафика. Удаление таких наблюдений может скрыть важную проблему.
Проверь себя · 1/3разбор после ответа
Вы построили
histogram и видите два пика. Какой следующий шаг помогает понять, не является ли это артефактом bin width?Ещё вопросы по теме «Распределения и выбросы»
- Что лучше всего показывает `histogram`?
- В `boxplot` «коробка» обычно соответствует какому диапазону `percentiles`?
- Как изменение `bin width` в `histogram` чаще всего влияет на восприятие данных?
- Что означает положительная `skewness` (правый перекос) у распределения выручки на пользователя?
- Вы видите единичные экстремальные значения в метрике времени ответа. Что разумнее всего сделать первым шагом перед удалением `outliers`?
- Все вопросы по «Распределения и выбросы» →