Какой признак скорее говорит, что outliers — это ошибка данных, а не редкий реальный случай?
AЗначения превышают физически возможные пределы или имеют неправильные единицы (например, миллисекунды вместо секунд)
B
outliers встречаются только у платящих пользователейC
outliers встречаются только в выходныеDРаспределение имеет правый хвост
Правильный ответ. Нарушение физических/логических ограничений часто указывает на ошибку данных.
Разбор
Если значение невозможно по смыслу метрики, это сильный сигнал проблем с качеством данных, например перепутанные единицы. Редкие реальные случаи обычно остаются в пределах возможного, даже если они экстремальны. Поэтому полезно иметь инварианты и проверки диапазонов для метрик.
Проверь себя · 1/3разбор после ответа
Вы сравниваете распределение выручки по двум когортам на
histogram. Что важно сделать, чтобы сравнение было честным?Ещё вопросы по теме «Распределения и выбросы»
- Что лучше всего показывает `histogram`?
- В `boxplot` «коробка» обычно соответствует какому диапазону `percentiles`?
- Как изменение `bin width` в `histogram` чаще всего влияет на восприятие данных?
- Что означает положительная `skewness` (правый перекос) у распределения выручки на пользователя?
- Вы видите единичные экстремальные значения в метрике времени ответа. Что разумнее всего сделать первым шагом перед удалением `outliers`?
- Все вопросы по «Распределения и выбросы» →