Когда логарифмическая шкала чаще всего полезна при визуализации распределения значений?
AКогда все значения уже умещаются в узком диапазоне и различаются между собой максимум в полтора-два раза по величине
BКогда строится временной ряд и нужно визуально устранить сезонную составляющую графика без её отдельного моделирования
CКогда квантильные оценки заменяются средним значением, чтобы итоговый график выглядел более информативно для зрителя
DКогда у распределения сильная скошенность и значения различаются на порядки: десятки и тысячи в одной выборке метрики
Правильный ответ. Логарифмическая шкала помогает, когда разброс значений огромный и у распределения длинные тяжёлые хвосты.
Разбор
Логарифмическая шкала сжимает большие значения и одновременно раскрывает структуру в области малых — это особенно полезно для метрик с тяжёлыми хвостами: выручка на пользователя, длительность сессии, число действий. На линейной оси такие распределения превращаются в «лес» у нуля и одиночные выбросы справа. Важно подписывать ось как логарифмическую и помнить, что одинаковые визуальные расстояния означают одинаковые отношения значений, а не разности. К сглаживанию сезонности или замене квантилей средним логарифм отношения не имеет.
Проверь себя · 1/3разбор после ответа
Вы построили гистограмму и видите два пика. Какой следующий шаг помогает понять, не является ли это артефактом ширины бина?
Ещё вопросы по теме «Распределения и выбросы»
- Какую информацию о данных лучше всего показывает гистограмма?
- В диаграмме «ящик с усами» (`boxplot`) сама «коробка» обычно соответствует какому диапазону квантилей данных?
- Как изменение ширины бина в гистограмме чаще всего влияет на восприятие распределения данных?
- Что означает положительная асимметрия (правый перекос) у распределения выручки на пользователя?
- Вы видите единичные экстремальные значения в метрике времени ответа. Что разумнее всего сделать первым шагом перед удалением выбросов?
- Все вопросы по «Распределения и выбросы» →