Типы графиков для аналитика: шпаргалка
Зачем аналитику знать типы графиков
На собеседованиях аналитиков регулярно спрашивают: «Какой график вы бы построили, чтобы показать X?» Неправильный ответ — не провал, но сигнал, что кандидат не привык работать с данными визуально. А это значит — будет медленнее находить инсайты и хуже доносить результаты до команды.
Эта шпаргалка покрывает основные типы графиков, которые должен знать аналитик данных: что показывает каждый, когда применять, когда нет, и как это спрашивают на интервью. Если вы готовитесь к вопросам по визуализации, начните с этого.
Line chart — линейный график
Что показывает: динамику метрики во времени. Ось X — время, ось Y — значение метрики. Точки соединены линией, что подчёркивает непрерывность и направление тренда.
Когда использовать:
- Любые метрики в динамике: DAU, выручка, конверсия по дням/неделям/месяцам
- Сравнение нескольких метрик или сегментов на одном временном отрезке (несколько линий)
- Скользящие средние для сглаживания шума
Когда не подходит:
- Для категориальных данных без временной оси — здесь лучше bar chart
- Когда точек мало (3-4) — линия создаёт иллюзию непрерывности там, где её нет
- Когда линий больше 5-6 — график превращается в спагетти, читать невозможно
На собеседовании: если спрашивают «как вы покажете динамику retention по когортам» — это line chart, где каждая когорта отдельная линия. Если спрашивают «чем отличается динамика от графика» — уточните: динамика это содержание (изменение метрики во времени), линейный график — форма представления. Динамику можно показать и bar chart'ом, но line chart подчёркивает тренд и непрерывность.
Bar chart — столбчатая диаграмма
Что показывает: сравнение значений между категориями. Длина столбца пропорциональна значению.
Когда использовать:
- Сравнение метрик между сегментами: выручка по регионам, конверсия по каналам
- Рейтинги и ранжирование: топ-10 товаров, распределение пользователей по тарифам
- Горизонтальный bar chart — когда названия категорий длинные
Когда не подходит:
- Для показа динамики во времени — если временных точек много, bar chart перегружает, используйте line chart
- Когда категорий больше 15-20 — становится нечитаемым
На собеседовании: классический вопрос — «сопоставьте типы графиков с их применением». Bar chart = сравнение категорий. Ось Y всегда должна начинаться с нуля, иначе визуально искажаются пропорции. Это частая ловушка: если ось обрезана, разница в 5% выглядит как разница в разы.
Histogram — гистограмма
Что показывает: распределение одной числовой переменной. Данные разбиваются на интервалы (bins), высота столбца — количество наблюдений в каждом интервале.
Когда использовать:
- Распределение времени сессий, чеков, возраста пользователей
- Проверка нормальности распределения
- Обнаружение выбросов и мультимодальности (два пика)
Когда не подходит:
- Для категориальных данных — это bar chart, не histogram
- Когда данных мало (< 30 значений) — распределение будет зашумлённым
Важно не путать histogram и bar chart. Histogram показывает распределение одной непрерывной переменной, столбцы прижаты друг к другу (нет зазоров). Bar chart сравнивает отдельные категории, столбцы разделены. На собеседовании эту разницу спрашивают напрямую.
На собеседовании: «Распределение сумм заказов имеет длинный правый хвост. Что это значит?» — большинство заказов на маленькие суммы, но есть небольшое число очень крупных. Это типичное скошенное вправо распределение, и среднее будет выше медианы.
Box plot — ящик с усами
Что показывает: медиану, квартили и выбросы одной переменной. Это единственный стандартный график, который показывает все пять ключевых статистик разом (минимум, Q1, медиана, Q3, максимум).
Как читать:
- Линия внутри ящика — медиана (Q2, 50-й перцентиль)
- Нижний край ящика — Q1 (25-й перцентиль)
- Верхний край ящика — Q3 (75-й перцентиль)
- Высота ящика = IQR (межквартильный размах, Q3 - Q1)
- Усы — обычно до 1.5 * IQR от краёв ящика
- Точки за усами — выбросы
Когда использовать:
- Сравнение распределений между группами: время ответа по регионам, зарплаты по отделам
- Быстрый поиск выбросов
- Когда нужно компактно показать распределение, а histogram занимает слишком много места
Когда не подходит:
- Для бимодальных распределений — box plot скроет два пика, лучше использовать histogram или violin plot
- Когда аудитория не знакома со статистикой — box plot требует пояснения
На собеседовании: если спрашивают «как называется график, показывающий медиану, квартили и выбросы» — это box plot (ящик с усами, box-and-whisker plot). Частый вопрос: «Что означает точка за пределами усов?» — это выброс, значение, которое отклоняется от Q1 или Q3 больше чем на 1.5 * IQR.
Scatter plot — диаграмма рассеяния
Что показывает: связь между двумя числовыми переменными. Каждая точка — одно наблюдение, положение определяется значениями по двум осям.
Когда использовать:
- Поиск корреляции: связь между бюджетом на рекламу и выручкой, между временем на сайте и количеством покупок
- Обнаружение кластеров и выбросов
- Визуальная проверка перед регрессионным анализом
Когда не подходит:
- Когда точек слишком много (>10 000) — всё сливается в пятно, нужна тепловая карта плотности
- Для категориальных переменных
На собеседовании: «Вы видите на scatter plot восходящий тренд. Можно ли утверждать, что одна переменная влияет на другую?» — нет. Корреляция не означает причинно-следственную связь. Это один из самых избитых, но по-прежнему проверяемых вопросов. Scatter plot показывает ассоциацию, не каузальность.
Heatmap — тепловая карта
Что показывает: значение третьей переменной через цвет на пересечении двух осей. Чем интенсивнее цвет, тем выше (или ниже) значение.
Когда использовать:
- Корреляционная матрица: связи между всеми парами метрик одновременно
- Когортный анализ: retention по когортам, где строки — когорты, столбцы — дни, цвет — процент возврата
- Активность по времени: день недели vs час, регион vs месяц
Когда не подходит:
- Когда нужно показать точные значения — цвет не позволяет различать близкие числа
- Для маленьких матриц (2x2, 3x3) — проще таблица
На собеседовании: часто дают задачу на продуктовую аналитику — «Визуализируйте retention по когортам». Правильный ответ — heatmap. Строки — недельные когорты, столбцы — Week 0, Week 1, ..., цвет — процент вернувшихся. Это компактнее, чем десять линий на одном line chart.
Pie chart — круговая диаграмма
Что показывает: доли частей от целого. Каждый сектор — процент от 100%.
Когда использовать: честно — почти никогда. Единственная ситуация, где pie chart уместен: показать, что одна категория доминирует (70%+ от целого), и это нужно донести визуально за секунду.
Почему аналитики не любят pie chart:
- Человеческий глаз плохо сравнивает углы и площади. Разницу между 27% и 32% на pie chart вы не увидите, а на bar chart — мгновенно.
- При 5+ категориях pie chart превращается в нечитаемую мешанину.
- Невозможно показать динамику: нельзя наложить два pie chart и увидеть, что изменилось.
Что использовать вместо: bar chart для сравнения долей в одном периоде, stacked bar для долей в динамике.
На собеседовании: если спрашивают «почему pie chart — плохой выбор», объясните проблему восприятия углов. Хороший кандидат предложит альтернативу: horizontal bar chart, отсортированный по убыванию. Если вас просят построить pie chart — стоит уточнить, подойдёт ли bar chart, и объяснить почему.
Stacked bar / Stacked area — доли в динамике
Что показывает: как меняется структура (доли компонентов) во времени.
Stacked bar chart: столбцы разбиты на цветные сегменты. Подходит, когда временных точек немного (месяцы, кварталы) и категорий 3-5.
Stacked area chart: то же самое, но с заливкой под линиями. Лучше подходит для непрерывных временных рядов с многими точками.
Когда использовать:
- Структура трафика по каналам по месяцам
- Доля платформ (iOS / Android / Web) в динамике
- Выручка по сегментам
Когда не подходит:
- Когда категорий больше 5-6 — нижние слои невозможно прочитать
- Когда важна динамика каждой отдельной категории, а не структура целого — используйте отдельные line charts
На собеседовании: если просят показать, как менялась доля мобильного трафика за год — stacked area chart (100%), где каждый слой — один канал. Если нужна абсолютная динамика — обычный stacked area (не нормированный).
Сводная таблица: задача — тип графика
| Задача | Тип графика |
|---|---|
| Динамика метрики во времени | Line chart |
| Сравнение категорий | Bar chart |
| Распределение одной переменной | Histogram |
| Медиана, квартили, выбросы | Box plot |
| Связь двух переменных | Scatter plot |
| Когортный retention | Heatmap |
| Корреляционная матрица | Heatmap |
| Доли от целого (статика) | Bar chart (не pie chart) |
| Доли в динамике | Stacked bar / Stacked area |
| Обнаружение выбросов | Box plot или scatter plot |
| Сравнение распределений между группами | Box plot или violin plot |
Эту таблицу стоит запомнить. На собеседованиях часто дают 5-6 задач и просят сопоставить каждую с типом графика.
Что спрашивают на собеседованиях
Типовые вопросы по визуализации данных, которые встречаются на интервью аналитиков:
Какой график вы используете для показа динамики DAU? — Line chart. Если нужно сгладить шум, добавьте скользящее среднее (7-дневное).
Чем histogram отличается от bar chart? — Histogram показывает распределение одной непрерывной переменной (столбцы без зазоров), bar chart сравнивает категории (столбцы с зазорами).
Как называется график, показывающий медиану, квартили и выбросы? — Box plot (ящик с усами). Медиана — линия внутри ящика, Q1 и Q3 — края ящика, точки за усами — выбросы.
Почему pie chart — плохой выбор? — Глаз плохо сравнивает углы. При 4+ категориях bar chart информативнее. Pie chart не позволяет показать динамику.
Как визуализировать когортный retention? — Heatmap. Строки — когорты, столбцы — дни от регистрации, цвет — процент возврата.
На scatter plot видна положительная корреляция. Можно ли говорить о причинно-следственной связи? — Нет. Корреляция не равна каузации. Нужен эксперимент или хотя бы контроль конфаундеров.
Как показать структуру выручки по каналам за 12 месяцев? — Stacked bar chart (абсолютные значения) или stacked bar chart 100% (если важны доли). При большом числе точек — stacked area.
Ось Y на bar chart начинается с 50. В чём проблема? — Визуальное искажение. Столбец высотой 55 выглядит в 5 раз выше столбца 51, хотя разница — 7%. Ось Y на bar chart всегда начинается с нуля.
Как тренироваться
Знание типов графиков — базовый навык, но его проверяют чаще, чем кажется. Особенно в формате «сопоставьте тип графика с задачей» или «какой график вы построите, чтобы разобраться в проблеме X».
Потренируйтесь решать задачи по визуализации данных в Карьернике — тренажёре для подготовки к собеседованиям аналитиков.
Читайте также
FAQ
Какой тип графика самый важный для аналитика?
Line chart и bar chart покрывают 70-80% всех рабочих задач аналитика. Line chart — для динамики метрик во времени, bar chart — для сравнения категорий. Если к этому добавить histogram для распределений и scatter plot для корреляций, вы закроете практически все ситуации. Остальные типы — специализированные инструменты, которые нужны реже, но знать их необходимо.
Box plot или histogram — что когда выбрать?
Histogram — когда вы исследуете одно распределение и хотите увидеть его форму: нормальное, скошенное, бимодальное. Box plot — когда нужно сравнить распределения между группами на одном графике. Пять box plot рядом читаются легко, пять наложенных histogram — нет. Если распределение бимодальное (два пика), histogram покажет это, а box plot — скроет.
Чем отличается scatter plot от bubble chart?
Scatter plot показывает связь двух переменных через позицию точек. Bubble chart добавляет третью переменную через размер точки. Например: ось X — бюджет на рекламу, ось Y — количество заявок, размер пузырька — средний чек. На собеседованиях bubble chart спрашивают редко, но знать о нём стоит.
Потренируйтесь решать задачи по визуализации данных в Карьернике — тренажёре для подготовки к собеседованиям аналитиков.