Визуализация распределений на собеседовании
Почему распределения важны для аналитика
Среднее значение может быть одинаковым для совершенно разных данных. Зарплата «в среднем 100 тысяч» может означать, что все получают по 100, или что половина получает 50, а половина — 150. Распределение раскрывает реальную картину — и интервьюеры проверяют, понимает ли это кандидат.
Вопросы по распределениям встречаются на всех уровнях: от «как визуализировать распределение зарплат» до «объясните, что показывает boxplot и как выявить выбросы».
Histogram
Что показывает: частоту значений в заданных интервалах (бинах). Ось X — интервалы значений, ось Y — количество наблюдений в каждом интервале.
Когда использовать: для понимания формы распределения одной числовой переменной. Бимодальность (два пика), скос (asymmetry), наличие выбросов — всё видно на histogram.
Ключевой параметр — число бинов. Слишком мало бинов — теряете детали. Слишком много — появляется шум. Правило Стёрджеса (k = 1 + 3.322 * log(n)) даёт разумную отправную точку, но на практике нужно подбирать визуально.
Типичный вопрос: «Построили histogram зарплат — два пика. Что это может означать?» Ответ: бимодальное распределение. Возможные причины — две группы сотрудников (junior и senior), два региона с разным уровнем оплаты.
Boxplot
Что показывает: медиану, квартили (Q1 и Q3), размах и выбросы. Коробка — межквартильный размах (IQR = Q3 - Q1). Линия внутри — медиана. «Усы» — до 1.5 * IQR от краёв коробки. Точки за усами — выбросы.
Когда использовать: для сравнения распределений по группам. Зарплаты по отделам, время отклика по серверам, оценки по группам. Компактнее histogram при сравнении 5+ групп.
Как читать boxplot: высокая коробка — большой разброс. Медиана ближе к Q1 — правый скос. Много выбросов сверху — логнормальное распределение. Коробки на разной высоте — группы отличаются.
Boxplot — любимый инструмент интервьюеров. Могут показать boxplot и попросить описать данные: «Что можно сказать о распределении? Где медиана? Есть ли выбросы? Какие группы отличаются?»
Violin plot
Что показывает: форму распределения (как KDE) + элементы boxplot. По сути — «зеркальная» плотность распределения с наложенным boxplot.
Когда использовать: когда boxplot скрывает важную информацию о форме. Два распределения с одинаковыми медианой и IQR могут выглядеть одинаково на boxplot, но violin покажет бимодальность или разную форму хвостов.
Ограничения: менее интуитивен для нетехнической аудитории. В презентации для руководства лучше использовать boxplot или histogram с пояснением.
KDE (Kernel Density Estimation)
Что показывает: сглаженную оценку плотности вероятности. В отличие от histogram, KDE — непрерывная кривая, не зависящая от выбора бинов. Удобна для наложения нескольких распределений на один график.
Важный параметр — bandwidth. Аналог числа бинов. Маленький bandwidth — шумная кривая. Большой — слишком гладкая, теряет детали.
Сравнение инструментов
Одна переменная: histogram или KDE. Сравнение 2-3 групп: overlapping KDE. Сравнение 5+ групп: boxplot или violin plot.
Если на собеседовании просят «визуализировать распределение» — уточните: одна группа или сравнение нескольких? Это определяет выбор инструмента и показывает ваш аналитический подход.
Типичные вопросы
Вопрос 1: «Чем histogram отличается от bar chart?» Histogram — для непрерывных данных (бины), столбцы прилегают друг к другу. Bar chart — для категорий, между столбцами есть промежутки.
Вопрос 2: «Как определить выбросы по boxplot?» Точки за пределами усов (1.5 * IQR от Q1 и Q3). Это стандартное определение, но на практике порог может быть другим.
Вопрос 3: «Когда boxplot лучше histogram?» Когда нужно компактно сравнить 5+ групп на одном графике. Histogram для каждой группы займёт слишком много места.
Как готовиться
Научитесь читать boxplot без подсказок: определять медиану, квартили, выбросы, скос. Постройте в Python histogram и boxplot для одних данных — увидите, какую информацию каждый скрывает. Разберите задачи в разделе визуализация данных.
FAQ
Как объяснить boxplot нетехническому человеку?
«Коробка — диапазон, в котором находятся средние 50% значений. Линия внутри — медиана (типичное значение). Точки за пределами усов — аномально высокие или низкие значения». Этого достаточно для большинства стейкхолдеров. Смотрите также примеры вопросов.
Когда violin plot лучше boxplot?
Когда форма распределения критична для вывода. Boxplot одинаково покажет нормальное и бимодальное распределение с одинаковыми квартилями. Violin покажет два пика. На собеседовании упомяните этот пример — он демонстрирует глубину понимания.
Как выбрать число бинов в histogram?
Начните с правила Стёрджеса или квадратного корня из числа наблюдений. Затем подберите визуально: бины должны раскрывать форму распределения без лишнего шума. Подробнее — подготовка к собеседованию аналитика.