4 апреля 2026 г.·6 мин чтения

Статистика для аналитика данных: минимум для собеседования

Q: Нужна ли аналитику высшая математика?

Нет. Для работы и собеседований достаточно базовой статистики: распределения, проверка гипотез, доверительные интервалы. Линейная алгебра и матанализ нужны Data Scientist-ам, а не аналитикам.

Q: Какой минимум статистики нужен для junior-позиции?

Среднее, медиана, стандартное отклонение, понимание нормального распределения. Для junior этого достаточно — остальное выучите на работе. Для middle — добавьте проверку гипотез и A/B-тесты.

Q: Python или Excel для статистики?

Для быстрых расчётов — Excel (формулы T.TEST, NORM.DIST). Для серьёзного анализа — Python (scipy.stats, statsmodels). На собеседовании обычно спрашивают концепции, а не код.

Q: Какие книги по статистике рекомендуете?

«Голая статистика» (Wheelan) — для начала. «Статистика» (Freedman, Pisani, Purves) — подробнее. Для A/B-тестов — «Trustworthy Online Controlled Experiments» (Kohavi).

Проверь себя · 1/3разбор после ответа

Если величина измеряется в минутах, в каких единицах измеряется стандартное отклонение этой величины?

Зачем аналитику статистика

Статистика — это язык, на котором аналитик обосновывает решения. Без неё вы можете только описать, что произошло. Со статистикой — можете доказать, что изменение работает, и оценить, насколько уверены в этом.

Где аналитик использует статистику:

A/B-тестирование: решение раскатывать фичу или откатить
Анализ аномалий: метрика упала — это шум или реальная проблема?
Прогнозирование: тренды, сезонность, доверительные интервалы
Сегментация: какие группы пользователей значимо отличаются

Описательная статистика

Меры центральной тенденции

Среднее (mean): сумма / количество. Чувствительно к выбросам
Медиана (median): значение посередине отсортированного ряда. Устойчива к выбросам
Мода (mode): самое частое значение

На собеседовании: «Средний чек — 2 500 руб., а медианный — 800 руб. Что это значит?» → Распределение чеков сильно скошено вправо: есть небольшая доля крупных заказов, которые тянут среднее вверх. Для принятия решений медиана информативнее.

Меры разброса

Дисперсия (variance): средний квадрат отклонения от среднего
Стандартное отклонение (std): корень из дисперсии. В тех же единицах, что и данные
Квартили и IQR: Q1 (25%), Q2 (медиана), Q3 (75%). IQR = Q3 - Q1
Перцентили: P90, P95, P99 — важны для анализа времени отклика, чеков

Подробнее о выбросах: выбросы в данных.

Распределения

Нормальное распределение

Колоколообразная кривая. Описывается средним (μ) и стандартным отклонением (σ). 68% данных попадает в μ±σ, 95% — в μ±2σ, 99.7% — в μ±3σ.

Почему важно: большинство статистических тестов предполагают нормальность (или нормальность средних — по ЦПТ).

Подробнее: нормальное распределение.

Центральная предельная теорема (ЦПТ)

Среднее любой выборки стремится к нормальному распределению при большом размере выборки, даже если исходные данные распределены ненормально.

Почему важно: позволяет применять z-тесты и t-тесты к любым данным, если выборка достаточно велика (n > 30 как правило).

Подробнее: ЦПТ.

Биномиальное распределение

Число «успехов» в n независимых испытаниях с вероятностью p. Описывает конверсию: из 1000 пользователей 32 купили → p = 0.032.

Распределение Пуассона

Число событий за фиксированный период. Описывает: количество заказов в час, количество ошибок в день, количество обращений в поддержку.

Проверка гипотез

Пошаговый алгоритм

Сформулируйте гипотезы: H0 (нет эффекта) и H1 (есть эффект)
Выберите тест: z-тест для пропорций, t-тест для средних
Задайте alpha: обычно 0.05
Рассчитайте тестовую статистику и p-value
Сделайте вывод: p < alpha → отвергаем H0

Подробнее: проверка гипотез.

Z-тест для пропорций

Сравнение двух конверсий (A/B-тест). Пример: конверсия A = 3.2% (n=10000), конверсия B = 3.5% (n=10000). Формула:

Pooled p = (320 + 350) / 20000 = 0.0335
SE = sqrt(p(1-p)(1/n1 + 1/n2))
z = (p2 - p1) / SE

T-тест для средних

Сравнение средних значений двух групп. Пример: средний чек A = 2500, средний чек B = 2650. Используется, когда метрика непрерывная.

P-value

Вероятность получить наблюдаемую (или более экстремальную) разницу при условии, что H0 верна. Подробнее: p-value простыми словами.

Частая ошибка: p-value ≠ вероятность того, что H0 верна. P-value — это свойство данных при заданной гипотезе, а не наоборот.

Доверительные интервалы

Диапазон значений, в который с заданной вероятностью (обычно 95%) попадает истинное значение параметра.

Пример: конверсия = 3.5%, 95% CI = [3.1%, 3.9%]. Означает: мы на 95% уверены, что истинная конверсия между 3.1% и 3.9%.

На собеседовании: «Когда доверительный интервал полезнее p-value?» → Когда важен не только факт различия, но и его размер. CI показывает диапазон правдоподобных значений эффекта.

Подробнее: доверительный интервал простыми словами.

Подготовься к собесу по A/B и статистике

300+ вопросов с разбором: дизайн, размер выборки, p-value, ловушки

Тренировать A/B в Telegram

Корреляция и причинность

Корреляция: линейная связь между переменными. Коэффициент Пирсона: от -1 до +1.

Причинность: одна переменная влияет на другую.

Корреляция ≠ причинность. Классический пример: продажи мороженого коррелируют с числом утоплений. Причина — жаркая погода, а не мороженое.

Как установить причинность: рандомизированный эксперимент (A/B-тест) или квазиэкспериментальные методы (diff-in-diff, instrumental variables).

Что спрашивают на собеседовании

Top-10 вопросов

Что такое p-value?
Чем отличаются ошибки I и II рода?
Как рассчитать размер выборки для A/B-теста?
Что такое доверительный интервал?
Когда использовать t-тест, а когда z-тест?
Что такое центральная предельная теорема?
Как проверить, нормально ли распределены данные?
Что такое множественные сравнения?
Чем корреляция отличается от причинности?
Что такое мощность теста?

Типичный кейс

«Мы провели A/B-тест, p-value = 0.03, конверсия выросла с 2.0% до 2.1%. Что вы рекомендуете?»

Хороший ответ: статистически значимо, но размер эффекта маленький (5% относительных). Нужно оценить, стоит ли бизнес-выгода (0.1 п.п. конверсии) затрат на внедрение. Также проверить: нет ли ухудшения guardrail-метрик, стабилен ли эффект по сегментам.

План изучения статистики для аналитика

Неделя 1: Описательная статистика

Среднее, медиана, мода, стандартное отклонение
Квартили, перцентили, boxplot
Типы распределений

Неделя 2: Проверка гипотез

H0, H1, alpha, p-value
Z-тест, t-тест
Ошибки I и II рода

Неделя 3: Доверительные интервалы и A/B-тесты

Построение CI
Размер выборки
Дизайн эксперимента

Неделя 4: Продвинутые темы

Множественные сравнения
Корреляция vs причинность
Байесовский подход (обзорно)

FAQ

Нужна ли аналитику высшая математика?