Вы построили гистограмму и видите два пика. Какой следующий шаг помогает понять, не является ли это артефактом ширины бина?
AСразу удалить экстремальные значения, считая, что именно они создают видимость второго пика на графике
BУменьшать ширину бина без оглядки на результат, чтобы каждое наблюдение почти попадало в отдельный бин
CСменить тип графика на ящик с усами и считать, что вопрос о бимодальности больше не возникает
DПостроить гистограмму с несколькими значениями ширины бина и проверить, сохраняются ли два пика устойчиво
Правильный ответ. Проверяйте форму распределения при разных значениях ширины бина, чтобы исключить артефакты биннинга.
Разбор
Два пика могут быть реальной смесью подгрупп или результатом неудачного разбиения на бины. Построение нескольких гистограмм с разной шириной бина помогает понять, сохраняется ли бимодальность. Если структура устойчива, имеет смысл искать объяснение в сегментах данных. Удаление экстремумов или смена графика на ящик с усами не отвечает на исходный вопрос про артефакт биннинга.
Проверь себя · 1/3разбор после ответа
Нужно сравнить распределения метрики по 8 сегментам (страны). Какой график чаще всего компактнее и удобнее для сравнения разброса и выбросов?
Ещё вопросы по теме «Распределения и выбросы»
- Какую информацию о данных лучше всего показывает гистограмма?
- В диаграмме «ящик с усами» (`boxplot`) сама «коробка» обычно соответствует какому диапазону квантилей данных?
- Как изменение ширины бина в гистограмме чаще всего влияет на восприятие распределения данных?
- Что означает положительная асимметрия (правый перекос) у распределения выручки на пользователя?
- Вы видите единичные экстремальные значения в метрике времени ответа. Что разумнее всего сделать первым шагом перед удалением выбросов?
- Все вопросы по «Распределения и выбросы» →