Типы графиков для аналитика: шпаргалка

Зачем аналитику знать типы графиков

На собеседованиях аналитиков регулярно спрашивают: «Какой график вы бы построили, чтобы показать X?» Неправильный ответ — не провал, но сигнал, что кандидат не привык работать с данными визуально. А это значит — будет медленнее находить инсайты и хуже доносить результаты до команды.

Эта шпаргалка покрывает основные типы графиков, которые должен знать аналитик данных: что показывает каждый, когда применять, когда нет, и как это спрашивают на интервью. Если вы готовитесь к вопросам по визуализации, начните с этого.

Line chart — линейный график

Что показывает: динамику метрики во времени. Ось X — время, ось Y — значение метрики. Точки соединены линией, что подчёркивает непрерывность и направление тренда.

Когда использовать:

  • Любые метрики в динамике: DAU, выручка, конверсия по дням/неделям/месяцам
  • Сравнение нескольких метрик или сегментов на одном временном отрезке (несколько линий)
  • Скользящие средние для сглаживания шума

Когда не подходит:

  • Для категориальных данных без временной оси — здесь лучше bar chart
  • Когда точек мало (3-4) — линия создаёт иллюзию непрерывности там, где её нет
  • Когда линий больше 5-6 — график превращается в спагетти, читать невозможно

На собеседовании: если спрашивают «как вы покажете динамику retention по когортам» — это line chart, где каждая когорта отдельная линия. Если спрашивают «чем отличается динамика от графика» — уточните: динамика это содержание (изменение метрики во времени), линейный график — форма представления. Динамику можно показать и bar chart'ом, но line chart подчёркивает тренд и непрерывность.

Bar chart — столбчатая диаграмма

Что показывает: сравнение значений между категориями. Длина столбца пропорциональна значению.

Когда использовать:

  • Сравнение метрик между сегментами: выручка по регионам, конверсия по каналам
  • Рейтинги и ранжирование: топ-10 товаров, распределение пользователей по тарифам
  • Горизонтальный bar chart — когда названия категорий длинные

Когда не подходит:

  • Для показа динамики во времени — если временных точек много, bar chart перегружает, используйте line chart
  • Когда категорий больше 15-20 — становится нечитаемым

На собеседовании: классический вопрос — «сопоставьте типы графиков с их применением». Bar chart = сравнение категорий. Ось Y всегда должна начинаться с нуля, иначе визуально искажаются пропорции. Это частая ловушка: если ось обрезана, разница в 5% выглядит как разница в разы.

Histogram — гистограмма

Что показывает: распределение одной числовой переменной. Данные разбиваются на интервалы (bins), высота столбца — количество наблюдений в каждом интервале.

Когда использовать:

  • Распределение времени сессий, чеков, возраста пользователей
  • Проверка нормальности распределения
  • Обнаружение выбросов и мультимодальности (два пика)

Когда не подходит:

  • Для категориальных данных — это bar chart, не histogram
  • Когда данных мало (< 30 значений) — распределение будет зашумлённым

Важно не путать histogram и bar chart. Histogram показывает распределение одной непрерывной переменной, столбцы прижаты друг к другу (нет зазоров). Bar chart сравнивает отдельные категории, столбцы разделены. На собеседовании эту разницу спрашивают напрямую.

На собеседовании: «Распределение сумм заказов имеет длинный правый хвост. Что это значит?» — большинство заказов на маленькие суммы, но есть небольшое число очень крупных. Это типичное скошенное вправо распределение, и среднее будет выше медианы.

Box plot — ящик с усами

Что показывает: медиану, квартили и выбросы одной переменной. Это единственный стандартный график, который показывает все пять ключевых статистик разом (минимум, Q1, медиана, Q3, максимум).

Как читать:

  • Линия внутри ящика — медиана (Q2, 50-й перцентиль)
  • Нижний край ящика — Q1 (25-й перцентиль)
  • Верхний край ящика — Q3 (75-й перцентиль)
  • Высота ящика = IQR (межквартильный размах, Q3 - Q1)
  • Усы — обычно до 1.5 * IQR от краёв ящика
  • Точки за усами — выбросы

Когда использовать:

  • Сравнение распределений между группами: время ответа по регионам, зарплаты по отделам
  • Быстрый поиск выбросов
  • Когда нужно компактно показать распределение, а histogram занимает слишком много места

Когда не подходит:

  • Для бимодальных распределений — box plot скроет два пика, лучше использовать histogram или violin plot
  • Когда аудитория не знакома со статистикой — box plot требует пояснения

На собеседовании: если спрашивают «как называется график, показывающий медиану, квартили и выбросы» — это box plot (ящик с усами, box-and-whisker plot). Частый вопрос: «Что означает точка за пределами усов?» — это выброс, значение, которое отклоняется от Q1 или Q3 больше чем на 1.5 * IQR.

Scatter plot — диаграмма рассеяния

Что показывает: связь между двумя числовыми переменными. Каждая точка — одно наблюдение, положение определяется значениями по двум осям.

Когда использовать:

  • Поиск корреляции: связь между бюджетом на рекламу и выручкой, между временем на сайте и количеством покупок
  • Обнаружение кластеров и выбросов
  • Визуальная проверка перед регрессионным анализом

Когда не подходит:

  • Когда точек слишком много (>10 000) — всё сливается в пятно, нужна тепловая карта плотности
  • Для категориальных переменных

На собеседовании: «Вы видите на scatter plot восходящий тренд. Можно ли утверждать, что одна переменная влияет на другую?» — нет. Корреляция не означает причинно-следственную связь. Это один из самых избитых, но по-прежнему проверяемых вопросов. Scatter plot показывает ассоциацию, не каузальность.

Heatmap — тепловая карта

Что показывает: значение третьей переменной через цвет на пересечении двух осей. Чем интенсивнее цвет, тем выше (или ниже) значение.

Когда использовать:

  • Корреляционная матрица: связи между всеми парами метрик одновременно
  • Когортный анализ: retention по когортам, где строки — когорты, столбцы — дни, цвет — процент возврата
  • Активность по времени: день недели vs час, регион vs месяц

Когда не подходит:

  • Когда нужно показать точные значения — цвет не позволяет различать близкие числа
  • Для маленьких матриц (2x2, 3x3) — проще таблица

На собеседовании: часто дают задачу на продуктовую аналитику — «Визуализируйте retention по когортам». Правильный ответ — heatmap. Строки — недельные когорты, столбцы — Week 0, Week 1, ..., цвет — процент вернувшихся. Это компактнее, чем десять линий на одном line chart.

Pie chart — круговая диаграмма

Что показывает: доли частей от целого. Каждый сектор — процент от 100%.

Когда использовать: честно — почти никогда. Единственная ситуация, где pie chart уместен: показать, что одна категория доминирует (70%+ от целого), и это нужно донести визуально за секунду.

Почему аналитики не любят pie chart:

  • Человеческий глаз плохо сравнивает углы и площади. Разницу между 27% и 32% на pie chart вы не увидите, а на bar chart — мгновенно.
  • При 5+ категориях pie chart превращается в нечитаемую мешанину.
  • Невозможно показать динамику: нельзя наложить два pie chart и увидеть, что изменилось.

Что использовать вместо: bar chart для сравнения долей в одном периоде, stacked bar для долей в динамике.

На собеседовании: если спрашивают «почему pie chart — плохой выбор», объясните проблему восприятия углов. Хороший кандидат предложит альтернативу: horizontal bar chart, отсортированный по убыванию. Если вас просят построить pie chart — стоит уточнить, подойдёт ли bar chart, и объяснить почему.

Stacked bar / Stacked area — доли в динамике

Что показывает: как меняется структура (доли компонентов) во времени.

Stacked bar chart: столбцы разбиты на цветные сегменты. Подходит, когда временных точек немного (месяцы, кварталы) и категорий 3-5.

Stacked area chart: то же самое, но с заливкой под линиями. Лучше подходит для непрерывных временных рядов с многими точками.

Когда использовать:

  • Структура трафика по каналам по месяцам
  • Доля платформ (iOS / Android / Web) в динамике
  • Выручка по сегментам

Когда не подходит:

  • Когда категорий больше 5-6 — нижние слои невозможно прочитать
  • Когда важна динамика каждой отдельной категории, а не структура целого — используйте отдельные line charts

На собеседовании: если просят показать, как менялась доля мобильного трафика за год — stacked area chart (100%), где каждый слой — один канал. Если нужна абсолютная динамика — обычный stacked area (не нормированный).

Сводная таблица: задача — тип графика

Задача Тип графика
Динамика метрики во времени Line chart
Сравнение категорий Bar chart
Распределение одной переменной Histogram
Медиана, квартили, выбросы Box plot
Связь двух переменных Scatter plot
Когортный retention Heatmap
Корреляционная матрица Heatmap
Доли от целого (статика) Bar chart (не pie chart)
Доли в динамике Stacked bar / Stacked area
Обнаружение выбросов Box plot или scatter plot
Сравнение распределений между группами Box plot или violin plot

Эту таблицу стоит запомнить. На собеседованиях часто дают 5-6 задач и просят сопоставить каждую с типом графика.

Что спрашивают на собеседованиях

Типовые вопросы по визуализации данных, которые встречаются на интервью аналитиков:

  1. Какой график вы используете для показа динамики DAU? — Line chart. Если нужно сгладить шум, добавьте скользящее среднее (7-дневное).

  2. Чем histogram отличается от bar chart? — Histogram показывает распределение одной непрерывной переменной (столбцы без зазоров), bar chart сравнивает категории (столбцы с зазорами).

  3. Как называется график, показывающий медиану, квартили и выбросы? — Box plot (ящик с усами). Медиана — линия внутри ящика, Q1 и Q3 — края ящика, точки за усами — выбросы.

  4. Почему pie chart — плохой выбор? — Глаз плохо сравнивает углы. При 4+ категориях bar chart информативнее. Pie chart не позволяет показать динамику.

  5. Как визуализировать когортный retention? — Heatmap. Строки — когорты, столбцы — дни от регистрации, цвет — процент возврата.

  6. На scatter plot видна положительная корреляция. Можно ли говорить о причинно-следственной связи? — Нет. Корреляция не равна каузации. Нужен эксперимент или хотя бы контроль конфаундеров.

  7. Как показать структуру выручки по каналам за 12 месяцев? — Stacked bar chart (абсолютные значения) или stacked bar chart 100% (если важны доли). При большом числе точек — stacked area.

  8. Ось Y на bar chart начинается с 50. В чём проблема? — Визуальное искажение. Столбец высотой 55 выглядит в 5 раз выше столбца 51, хотя разница — 7%. Ось Y на bar chart всегда начинается с нуля.

Как тренироваться

Знание типов графиков — базовый навык, но его проверяют чаще, чем кажется. Особенно в формате «сопоставьте тип графика с задачей» или «какой график вы построите, чтобы разобраться в проблеме X».

Потренируйтесь решать задачи по визуализации данных в Карьернике — тренажёре для подготовки к собеседованиям аналитиков.

Читайте также

FAQ

Какой тип графика самый важный для аналитика?

Line chart и bar chart покрывают 70-80% всех рабочих задач аналитика. Line chart — для динамики метрик во времени, bar chart — для сравнения категорий. Если к этому добавить histogram для распределений и scatter plot для корреляций, вы закроете практически все ситуации. Остальные типы — специализированные инструменты, которые нужны реже, но знать их необходимо.

Box plot или histogram — что когда выбрать?

Histogram — когда вы исследуете одно распределение и хотите увидеть его форму: нормальное, скошенное, бимодальное. Box plot — когда нужно сравнить распределения между группами на одном графике. Пять box plot рядом читаются легко, пять наложенных histogram — нет. Если распределение бимодальное (два пика), histogram покажет это, а box plot — скроет.

Чем отличается scatter plot от bubble chart?

Scatter plot показывает связь двух переменных через позицию точек. Bubble chart добавляет третью переменную через размер точки. Например: ось X — бюджет на рекламу, ось Y — количество заявок, размер пузырька — средний чек. На собеседованиях bubble chart спрашивают редко, но знать о нём стоит.


Потренируйтесь решать задачи по визуализации данных в Карьернике — тренажёре для подготовки к собеседованиям аналитиков.