Heatmap и корреляционные матрицы на собеседовании

Зачем нужны heatmap в аналитике

Heatmap превращает таблицу чисел в визуальный паттерн. Человеческий глаз мгновенно находит тёмные и светлые области, аномалии, кластеры. Там, где таблица из 100 ячеек непрочитываема, heatmap даёт ответ за секунду.

На собеседовании heatmap встречается в трёх контекстах: корреляционная матрица, когортный анализ и pivot-таблицы. Интервьюер проверяет, понимаете ли вы, когда heatmap уместен и как его правильно читать.

Корреляционная матрица

Что это: таблица коэффициентов корреляции между всеми парами числовых переменных, визуализированная цветом. Значения от -1 (обратная зависимость) до +1 (прямая зависимость).

Когда использовать: на этапе EDA (exploratory data analysis) для быстрого обзора зависимостей. Какие метрики связаны? Есть ли мультиколлинеарность? Какие пары заслуживают детального анализа?

Как строить правильно: дивергентная палитра с нулём в центре, числа в ячейках для точности, верхний треугольник скрыт (матрица симметрична), переменные отсортированы по кластерам.

Типичный вопрос: «Что означает корреляция 0.85?» Сильная положительная линейная зависимость. Но не причинность — обязательно упомяните это на собеседовании.

Корреляционная матрица на heatmap — стандартный первый шаг EDA. Если интервьюер просит «изучить датасет» — начните с описательной статистики и корреляционной матрицы. Это показывает системный подход.

Когортный heatmap

Что это: таблица, где строки — когорты (обычно месяц/неделя регистрации), столбцы — дни/недели/месяцы с момента регистрации, значение — метрика (чаще всего retention).

Почему это классика аналитики: когортный heatmap показывает, как меняется поведение пользователей со временем и различаются ли когорты между собой. Улучшается ли retention от когорты к когорте? На каком дне происходит основной отток?

Как читать: строка слева направо — жизненный цикл когорты (цвет бледнеет — отток). Столбец сверху вниз — сравнение когорт на одном «дне жизни». Диагональ — одна календарная дата для разных когорт.

Типичный вопрос: «Постройте retention-дашборд.» Ответ почти всегда включает когортный heatmap как центральный элемент.

Pivot heatmap

Что это: любая двумерная агрегация, визуализированная цветом. Дни недели по строкам, часы по столбцам, значение — количество событий. Или: продукты по строкам, регионы по столбцам, значение — выручка.

Когда использовать: когда нужно найти паттерн в двумерных категориальных данных. Heatmap «день недели x час» мгновенно покажет пиковые часы активности. Таблица с теми же данными потребует минуту на анализ.

Примеры: активность по дням и часам, конверсия по источнику и лендингу, ошибки по серверу и времени.

Как правильно строить heatmap

Выбор палитры — критичен. Для последовательных данных — последовательная палитра (белый — синий). Для дивергентных данных (с нейтральным центром) — дивергентная палитра (синий — белый — красный).

Аннотации — числа в ячейках. Без них heatmap показывает только общий паттерн. Включайте числа, если ячеек не более 50-80.

Нормализация — если строки имеют разный масштаб, нормализуйте по строке. Иначе одна строка с большими значениями затмит все остальные.

Частая ошибка — радужная палитра. Радуга не имеет интуитивного порядка: жёлтый «больше» зелёного или наоборот? Используйте однотонную или дивергентную палитру.

Типичные вопросы на собеседовании

Вопрос 1: «Как визуализировать когортный retention?» Heatmap: когорты по строкам, дни по столбцам, цвет — процент retention. Числа в ячейках для точности.

Вопрос 2: «На корреляционной матрице два признака показывают корреляцию 0.95. Что делать?» Проверить причинность. Если оба — независимые предикторы, возможна мультиколлинеарность. Один из них можно исключить из модели.

Вопрос 3: «Как найти лучшее время для push-уведомлений?» Heatmap: день недели по строкам, час по столбцам, цвет — конверсия или CTR. Визуально найти ячейки с максимальной конверсией.

Как готовиться

Постройте три типа heatmap: корреляционную матрицу, когортный retention, pivot «день x час». Потренируйтесь объяснять выводы: какие паттерны видны, какие аномалии, какие действия предпринять. Подробнее — в разделе визуализация данных.

FAQ

Когда heatmap лучше обычной таблицы?

Когда нужно быстро найти паттерн в большом объёме данных. Таблица 12x7 с числами требует минуту на чтение. Heatmap — секунду. Если данных мало (3x3) — таблица читается не хуже. Смотрите примеры вопросов.

Какую палитру выбрать для heatmap?

Последовательную (viridis, Blues) — для данных с одним направлением (0 до max). Дивергентную (RdBu, coolwarm) — для данных с центром (корреляция: -1 до +1). Никогда не используйте радужную палитру — она не несёт информации о порядке.

Как читать когортный heatmap, если никогда не видел?

Строки — группы пользователей по дате регистрации. Столбцы — сколько времени прошло. Цвет — доля активных. Темнее — больше пользователей остались. Смотрите по строке, как бледнеет цвет — это отток. Подробнее — подготовка к собеседованию аналитика.