В метрике регулярно встречаются выбросы, которые совпадают по времени с пиками нагрузки. Какое действие наиболее корректно с точки зрения интерпретации?
AУдалять экстремальные значения из выборки: они мешают среднему и портят графики распределения метрики
BСчитать выбросы ошибкой инструментирования и попросить инженеров отфильтровать такие наблюдения на сборе
CЗаменить ящик с усами на гистограмму без разбора причин хвоста: новый тип графика снимет вопросы у читателей
DСчитать выбросы частью реального поведения системы и анализировать их через
p95/p99 и срезы по нагрузкеПравильный ответ. Повторяющиеся
outliers могут отражать реальные условия, а не ошибки.Разбор
Если экстремальные значения систематичны и связаны с нагрузкой, это сигнал качества сервиса, а не мусор. Тогда полезно показывать хвосты через p95/p99 и сегментировать по уровню трафика. Удаление таких наблюдений может скрыть важную проблему.
Проверь себя · 1/3разбор после ответа
Нужно сравнить распределения метрики по 8 сегментам (страны). Какой график чаще всего компактнее и удобнее для сравнения разброса и выбросов?
Ещё вопросы по теме «Распределения и выбросы»
- Какую информацию о данных лучше всего показывает гистограмма?
- В диаграмме «ящик с усами» (`boxplot`) сама «коробка» обычно соответствует какому диапазону квантилей данных?
- Как изменение ширины бина в гистограмме чаще всего влияет на восприятие распределения данных?
- Что означает положительная асимметрия (правый перекос) у распределения выручки на пользователя?
- Вы видите единичные экстремальные значения в метрике времени ответа. Что разумнее всего сделать первым шагом перед удалением выбросов?
- Все вопросы по «Распределения и выбросы» →