Статистика для аналитика данных: минимум для собеседования

Зачем аналитику статистика

Статистика — это язык, на котором аналитик обосновывает решения. Без неё вы можете только описать, что произошло. Со статистикой — можете доказать, что изменение работает, и оценить, насколько уверены в этом.

Где аналитик использует статистику:

  • A/B-тестирование: решение раскатывать фичу или откатить
  • Анализ аномалий: метрика упала — это шум или реальная проблема?
  • Прогнозирование: тренды, сезонность, доверительные интервалы
  • Сегментация: какие группы пользователей значимо отличаются

Описательная статистика

Меры центральной тенденции

  • Среднее (mean): сумма / количество. Чувствительно к выбросам
  • Медиана (median): значение посередине отсортированного ряда. Устойчива к выбросам
  • Мода (mode): самое частое значение

На собеседовании: «Средний чек — 2 500 руб., а медианный — 800 руб. Что это значит?» → Распределение чеков сильно скошено вправо: есть небольшая доля крупных заказов, которые тянут среднее вверх. Для принятия решений медиана информативнее.

Меры разброса

  • Дисперсия (variance): средний квадрат отклонения от среднего
  • Стандартное отклонение (std): корень из дисперсии. В тех же единицах, что и данные
  • Квартили и IQR: Q1 (25%), Q2 (медиана), Q3 (75%). IQR = Q3 - Q1
  • Перцентили: P90, P95, P99 — важны для анализа времени отклика, чеков

Подробнее о выбросах: выбросы в данных.

Распределения

Нормальное распределение

Колоколообразная кривая. Описывается средним (μ) и стандартным отклонением (σ). 68% данных попадает в μ±σ, 95% — в μ±2σ, 99.7% — в μ±3σ.

Почему важно: большинство статистических тестов предполагают нормальность (или нормальность средних — по ЦПТ).

Подробнее: нормальное распределение.

Центральная предельная теорема (ЦПТ)

Среднее любой выборки стремится к нормальному распределению при большом размере выборки, даже если исходные данные распределены ненормально.

Почему важно: позволяет применять z-тесты и t-тесты к любым данным, если выборка достаточно велика (n > 30 как правило).

Подробнее: ЦПТ.

Биномиальное распределение

Число «успехов» в n независимых испытаниях с вероятностью p. Описывает конверсию: из 1000 пользователей 32 купили → p = 0.032.

Распределение Пуассона

Число событий за фиксированный период. Описывает: количество заказов в час, количество ошибок в день, количество обращений в поддержку.

Проверка гипотез

Пошаговый алгоритм

  1. Сформулируйте гипотезы: H0 (нет эффекта) и H1 (есть эффект)
  2. Выберите тест: z-тест для пропорций, t-тест для средних
  3. Задайте alpha: обычно 0.05
  4. Рассчитайте тестовую статистику и p-value
  5. Сделайте вывод: p < alpha → отвергаем H0

Подробнее: проверка гипотез.

Z-тест для пропорций

Сравнение двух конверсий (A/B-тест). Пример: конверсия A = 3.2% (n=10000), конверсия B = 3.5% (n=10000). Формула:

  • Pooled p = (320 + 350) / 20000 = 0.0335
  • SE = sqrt(p(1-p)(1/n1 + 1/n2))
  • z = (p2 - p1) / SE

T-тест для средних

Сравнение средних значений двух групп. Пример: средний чек A = 2500, средний чек B = 2650. Используется, когда метрика непрерывная.

P-value

Вероятность получить наблюдаемую (или более экстремальную) разницу при условии, что H0 верна. Подробнее: p-value простыми словами.

Частая ошибка: p-value ≠ вероятность того, что H0 верна. P-value — это свойство данных при заданной гипотезе, а не наоборот.

Доверительные интервалы

Диапазон значений, в который с заданной вероятностью (обычно 95%) попадает истинное значение параметра.

Пример: конверсия = 3.5%, 95% CI = [3.1%, 3.9%]. Означает: мы на 95% уверены, что истинная конверсия между 3.1% и 3.9%.

На собеседовании: «Когда доверительный интервал полезнее p-value?» → Когда важен не только факт различия, но и его размер. CI показывает диапазон правдоподобных значений эффекта.

Подробнее: доверительный интервал простыми словами.

Корреляция и причинность

Корреляция: линейная связь между переменными. Коэффициент Пирсона: от -1 до +1.

Причинность: одна переменная влияет на другую.

Корреляция ≠ причинность. Классический пример: продажи мороженого коррелируют с числом утоплений. Причина — жаркая погода, а не мороженое.

Как установить причинность: рандомизированный эксперимент (A/B-тест) или квазиэкспериментальные методы (diff-in-diff, instrumental variables).

Что спрашивают на собеседовании

Top-10 вопросов

  1. Что такое p-value?
  2. Чем отличаются ошибки I и II рода?
  3. Как рассчитать размер выборки для A/B-теста?
  4. Что такое доверительный интервал?
  5. Когда использовать t-тест, а когда z-тест?
  6. Что такое центральная предельная теорема?
  7. Как проверить, нормально ли распределены данные?
  8. Что такое множественные сравнения?
  9. Чем корреляция отличается от причинности?
  10. Что такое мощность теста?

Типичный кейс

«Мы провели A/B-тест, p-value = 0.03, конверсия выросла с 2.0% до 2.1%. Что вы рекомендуете?»

Хороший ответ: статистически значимо, но размер эффекта маленький (5% относительных). Нужно оценить, стоит ли бизнес-выгода (0.1 п.п. конверсии) затрат на внедрение. Также проверить: нет ли ухудшения guardrail-метрик, стабилен ли эффект по сегментам.

План изучения статистики для аналитика

Неделя 1: Описательная статистика

  • Среднее, медиана, мода, стандартное отклонение
  • Квартили, перцентили, boxplot
  • Типы распределений

Неделя 2: Проверка гипотез

  • H0, H1, alpha, p-value
  • Z-тест, t-тест
  • Ошибки I и II рода

Неделя 3: Доверительные интервалы и A/B-тесты

  • Построение CI
  • Размер выборки
  • Дизайн эксперимента

Неделя 4: Продвинутые темы

  • Множественные сравнения
  • Корреляция vs причинность
  • Байесовский подход (обзорно)

Читайте также

FAQ

Нужна ли аналитику высшая математика?

Нет. Для работы и собеседований достаточно базовой статистики: распределения, проверка гипотез, доверительные интервалы. Линейная алгебра и матанализ нужны Data Scientist-ам, а не аналитикам.

Какой минимум статистики нужен для junior-позиции?

Среднее, медиана, стандартное отклонение, понимание нормального распределения. Для junior этого достаточно — остальное выучите на работе. Для middle — добавьте проверку гипотез и A/B-тесты.

Python или Excel для статистики?

Для быстрых расчётов — Excel (формулы T.TEST, NORM.DIST). Для серьёзного анализа — Python (scipy.stats, statsmodels). На собеседовании обычно спрашивают концепции, а не код.

Какие книги по статистике рекомендуете?

«Голая статистика» (Wheelan) — для начала. «Статистика» (Freedman, Pisani, Purves) — подробнее. Для A/B-тестов — «Trustworthy Online Controlled Experiments» (Kohavi).


Тренируйтесь отвечать на вопросы по статистике — откройте тренажёр с вопросами по проверке гипотез, распределениям и A/B-тестам.