Какой признак скорее говорит о том, что аномальные значения метрики — это ошибка данных, а не редкий реальный случай?
AЗначения превышают физически возможные пределы метрики или явно имеют неправильные единицы, например миллисекунды вместо секунд.
BАномальные значения встречаются почти исключительно у платящих пользователей и не связаны с техническими сбоями или единицами измерения.
CАномальные значения сосредоточены в выходные дни, при этом распределение в будни выглядит ожидаемым и без отклонений.
DРаспределение метрики имеет выраженный правый хвост, что считается достаточным признаком ошибки в данных без других проверок.
Правильный ответ. Нарушение физических или логических ограничений метрики часто указывает на ошибку данных, а не на редкое реальное наблюдение.
Разбор
Если значение невозможно по смыслу метрики, это сильный сигнал проблем с качеством данных, например перепутанные единицы измерения. Редкие реальные случаи обычно остаются в пределах возможного, даже если они экстремальны. Сегментные совпадения и форма распределения сами по себе не доказывают ошибку. Поэтому полезно иметь инварианты и проверки диапазонов для каждой ключевой метрики.
Проверь себя · 1/3разбор после ответа
Нужно сравнить распределения метрики по 8 сегментам (страны). Какой график чаще всего компактнее и удобнее для сравнения разброса и выбросов?
Ещё вопросы по теме «Распределения и выбросы»
- Какую информацию о данных лучше всего показывает гистограмма?
- В диаграмме «ящик с усами» (`boxplot`) сама «коробка» обычно соответствует какому диапазону квантилей данных?
- Как изменение ширины бина в гистограмме чаще всего влияет на восприятие распределения данных?
- Что означает положительная асимметрия (правый перекос) у распределения выручки на пользователя?
- Вы видите единичные экстремальные значения в метрике времени ответа. Что разумнее всего сделать первым шагом перед удалением выбросов?
- Все вопросы по «Распределения и выбросы» →