Статистика для аналитика данных: минимум для собеседования
Зачем аналитику статистика
Статистика — это язык, на котором аналитик обосновывает решения. Без неё вы можете только описать, что произошло. Со статистикой — можете доказать, что изменение работает, и оценить, насколько уверены в этом.
Где аналитик использует статистику:
- A/B-тестирование: решение раскатывать фичу или откатить
- Анализ аномалий: метрика упала — это шум или реальная проблема?
- Прогнозирование: тренды, сезонность, доверительные интервалы
- Сегментация: какие группы пользователей значимо отличаются
Описательная статистика
Меры центральной тенденции
- Среднее (mean): сумма / количество. Чувствительно к выбросам
- Медиана (median): значение посередине отсортированного ряда. Устойчива к выбросам
- Мода (mode): самое частое значение
На собеседовании: «Средний чек — 2 500 руб., а медианный — 800 руб. Что это значит?» → Распределение чеков сильно скошено вправо: есть небольшая доля крупных заказов, которые тянут среднее вверх. Для принятия решений медиана информативнее.
Меры разброса
- Дисперсия (variance): средний квадрат отклонения от среднего
- Стандартное отклонение (std): корень из дисперсии. В тех же единицах, что и данные
- Квартили и IQR: Q1 (25%), Q2 (медиана), Q3 (75%). IQR = Q3 - Q1
- Перцентили: P90, P95, P99 — важны для анализа времени отклика, чеков
Подробнее о выбросах: выбросы в данных.
Распределения
Нормальное распределение
Колоколообразная кривая. Описывается средним (μ) и стандартным отклонением (σ). 68% данных попадает в μ±σ, 95% — в μ±2σ, 99.7% — в μ±3σ.
Почему важно: большинство статистических тестов предполагают нормальность (или нормальность средних — по ЦПТ).
Подробнее: нормальное распределение.
Центральная предельная теорема (ЦПТ)
Среднее любой выборки стремится к нормальному распределению при большом размере выборки, даже если исходные данные распределены ненормально.
Почему важно: позволяет применять z-тесты и t-тесты к любым данным, если выборка достаточно велика (n > 30 как правило).
Подробнее: ЦПТ.
Биномиальное распределение
Число «успехов» в n независимых испытаниях с вероятностью p. Описывает конверсию: из 1000 пользователей 32 купили → p = 0.032.
Распределение Пуассона
Число событий за фиксированный период. Описывает: количество заказов в час, количество ошибок в день, количество обращений в поддержку.
Проверка гипотез
Пошаговый алгоритм
- Сформулируйте гипотезы: H0 (нет эффекта) и H1 (есть эффект)
- Выберите тест: z-тест для пропорций, t-тест для средних
- Задайте alpha: обычно 0.05
- Рассчитайте тестовую статистику и p-value
- Сделайте вывод: p < alpha → отвергаем H0
Подробнее: проверка гипотез.
Z-тест для пропорций
Сравнение двух конверсий (A/B-тест). Пример: конверсия A = 3.2% (n=10000), конверсия B = 3.5% (n=10000). Формула:
- Pooled p = (320 + 350) / 20000 = 0.0335
- SE = sqrt(p(1-p)(1/n1 + 1/n2))
- z = (p2 - p1) / SE
T-тест для средних
Сравнение средних значений двух групп. Пример: средний чек A = 2500, средний чек B = 2650. Используется, когда метрика непрерывная.
P-value
Вероятность получить наблюдаемую (или более экстремальную) разницу при условии, что H0 верна. Подробнее: p-value простыми словами.
Частая ошибка: p-value ≠ вероятность того, что H0 верна. P-value — это свойство данных при заданной гипотезе, а не наоборот.
Доверительные интервалы
Диапазон значений, в который с заданной вероятностью (обычно 95%) попадает истинное значение параметра.
Пример: конверсия = 3.5%, 95% CI = [3.1%, 3.9%]. Означает: мы на 95% уверены, что истинная конверсия между 3.1% и 3.9%.
На собеседовании: «Когда доверительный интервал полезнее p-value?» → Когда важен не только факт различия, но и его размер. CI показывает диапазон правдоподобных значений эффекта.
Подробнее: доверительный интервал простыми словами.
Корреляция и причинность
Корреляция: линейная связь между переменными. Коэффициент Пирсона: от -1 до +1.
Причинность: одна переменная влияет на другую.
Корреляция ≠ причинность. Классический пример: продажи мороженого коррелируют с числом утоплений. Причина — жаркая погода, а не мороженое.
Как установить причинность: рандомизированный эксперимент (A/B-тест) или квазиэкспериментальные методы (diff-in-diff, instrumental variables).
Что спрашивают на собеседовании
Top-10 вопросов
- Что такое p-value?
- Чем отличаются ошибки I и II рода?
- Как рассчитать размер выборки для A/B-теста?
- Что такое доверительный интервал?
- Когда использовать t-тест, а когда z-тест?
- Что такое центральная предельная теорема?
- Как проверить, нормально ли распределены данные?
- Что такое множественные сравнения?
- Чем корреляция отличается от причинности?
- Что такое мощность теста?
Типичный кейс
«Мы провели A/B-тест, p-value = 0.03, конверсия выросла с 2.0% до 2.1%. Что вы рекомендуете?»
Хороший ответ: статистически значимо, но размер эффекта маленький (5% относительных). Нужно оценить, стоит ли бизнес-выгода (0.1 п.п. конверсии) затрат на внедрение. Также проверить: нет ли ухудшения guardrail-метрик, стабилен ли эффект по сегментам.
План изучения статистики для аналитика
Неделя 1: Описательная статистика
- Среднее, медиана, мода, стандартное отклонение
- Квартили, перцентили, boxplot
- Типы распределений
Неделя 2: Проверка гипотез
- H0, H1, alpha, p-value
- Z-тест, t-тест
- Ошибки I и II рода
Неделя 3: Доверительные интервалы и A/B-тесты
- Построение CI
- Размер выборки
- Дизайн эксперимента
Неделя 4: Продвинутые темы
- Множественные сравнения
- Корреляция vs причинность
- Байесовский подход (обзорно)
Читайте также
- Проверка гипотез
- P-value простыми словами
- Нормальное распределение
- 30 вопросов по A/B-тестам
- Статистика на собеседовании
FAQ
Нужна ли аналитику высшая математика?
Нет. Для работы и собеседований достаточно базовой статистики: распределения, проверка гипотез, доверительные интервалы. Линейная алгебра и матанализ нужны Data Scientist-ам, а не аналитикам.
Какой минимум статистики нужен для junior-позиции?
Среднее, медиана, стандартное отклонение, понимание нормального распределения. Для junior этого достаточно — остальное выучите на работе. Для middle — добавьте проверку гипотез и A/B-тесты.
Python или Excel для статистики?
Для быстрых расчётов — Excel (формулы T.TEST, NORM.DIST). Для серьёзного анализа — Python (scipy.stats, statsmodels). На собеседовании обычно спрашивают концепции, а не код.
Какие книги по статистике рекомендуете?
«Голая статистика» (Wheelan) — для начала. «Статистика» (Freedman, Pisani, Purves) — подробнее. Для A/B-тестов — «Trustworthy Online Controlled Experiments» (Kohavi).
Тренируйтесь отвечать на вопросы по статистике — откройте тренажёр с вопросами по проверке гипотез, распределениям и A/B-тестам.