Визуализация данных в Python на собеседовании

Зачем спрашивают визуализацию

Визуализация на собеседовании аналитика — это не про красивые картинки. Интервьюер проверяет, умеете ли вы выбирать правильный тип графика и объяснить, почему он подходит. Вопросы бывают теоретические («какой график подойдёт для...») и практические («постройте график»).

Библиотеки, которые нужно знать

matplotlib — базовая библиотека с полным контролем. Основы: plt.plot(), plt.bar(), plt.scatter(), plt.show().

seaborn — надстройка над matplotlib со встроенной статистикой. Ключевые: sns.histplot(), sns.boxplot(), sns.heatmap(), sns.pairplot().

plotly — интерактивные графики. Реже спрашивают, но в продуктовой аналитике используется активно.

Совет: На собеседовании не нужно помнить все параметры. Достаточно знать, какой функцией строится нужный график и какие данные она принимает.

Какой график когда использовать

Это самый частый вопрос по визуализации. Интервьюер описывает задачу и спрашивает, какой график вы бы выбрали.

Bar chart — сравнение категорий (выручка по регионам, пользователи по каналам). Более 10—12 категорий — лучше горизонтальный bar.

Line chart — динамика во времени (DAU, выручка по месяцам, retention по дням). Не подходит для категориальных данных без временного порядка.

Scatter plot — зависимость между двумя числовыми переменными, корреляция, кластеры. Дополните цветом или размером для третьей переменной.

Heatmap — корреляционная матрица, когортный анализ, распределение событий по дням и часам.

Boxplot — распределение по группам (зарплаты по отделам). Показывает медиану, квартили и выбросы — информативнее среднего.

Histogram — распределение одной числовой переменной. Важно правильно выбрать число bins.

Частые ошибки визуализации

Интервьюеры иногда показывают «плохой» график и просят найти проблемы:

  • Pie chart для сравнения — глаз плохо сравнивает углы. Для 5+ категорий bar chart лучше
  • Обрезанная ось Y — создаёт ложное впечатление о разнице между значениями
  • Слишком много линий — более 5—6 линий превращают визуализацию в кашу. Решение: фасеты
  • Отсутствие подписей осей — график без контекста бесполезен
  • 3D-графики без необходимости — почти всегда можно обойтись 2D с цветовой кодировкой

Примеры вопросов

  1. Какой график вы используете для когортного анализа? Heatmap — строки это когорты, столбцы — дни/недели, цвет — retention.

  2. Как визуализировать распределение зарплат по отделам? Boxplot — покажет медиану, разброс и выбросы в каждом отделе.

  3. Чем plt.subplots() лучше нескольких plt.figure()? subplots позволяет разместить несколько графиков на одной фигуре с единым масштабом и стилем.

  4. Когда scatter plot бесполезен? Когда точек слишком много и они сливаются. Решение: прозрачность (alpha), hexbin или 2D-гистограмма.

На заметку: В продуктовой аналитике визуализация — рабочий инструмент. Посмотрите вопросы по SQL, где часто просят построить запрос для дашборда.

Как готовиться

  1. Запомните связку «данные — график» — категории = bar, время = line, два числа = scatter, распределение = histogram/boxplot.
  2. Учитесь критиковать — на собеседовании могут показать плохой график и попросить улучшить.
  3. Практикуйтесь в Jupyter — достаточно 5—6 типов. seaborn-однострочники экономят время.
  4. Разбирайте вопросы в Карьернике — в разделе Python есть задачи на визуализацию.

FAQ

Какую библиотеку визуализации учить первой?

matplotlib — базовый и универсальный. Затем seaborn для статистических графиков. Для большинства собеседований хватит этих двух.

Спрашивают ли Tableau или Power BI на собеседовании аналитика?

Зависит от вакансии. Python-визуализацию спрашивают чаще, потому что она показывает глубину работы с данными. Смотрите советы по подготовке.

Нужно ли помнить все параметры matplotlib?

Нет. Достаточно знать основные функции и уметь объяснить выбор графика. Интервьюер оценивает мышление, а не память. Проверьте себя на примерах вопросов.