Проверка гипотез на собеседовании аналитика

Почему проверка гипотез — ключевая тема

Проверка гипотез — фундамент принятия решений на основе данных. На собеседовании аналитика эта тема появляется практически всегда: от прямых вопросов про p-value до задач на интерпретацию результатов A/B-тестов. Интервьюер проверяет понимание логики статистического вывода и умение объяснить результат бизнесу.

H0 и H1: нулевая и альтернативная гипотезы

Любой статистический тест начинается с формулировки двух гипотез.

Нулевая гипотеза (H0) — утверждение, что эффекта нет. Конверсии в группах одинаковы, новая фича не влияет на метрику, разницы нет. H0 — это статус-кво, который мы пытаемся опровергнуть.

Альтернативная гипотеза (H1) — утверждение, что эффект есть. Конверсия в тестовой группе выше, средний чек изменился, разница существует.

Частая ошибка на собеседовании: кандидат говорит, что «мы доказали H0» или «приняли H0». Корректная формулировка — «мы не нашли оснований отвергнуть H0». Это не одно и то же: отсутствие доказательств эффекта не доказывает его отсутствие.

p-value: что это на самом деле

p-value — самый непонятый термин в статистике. На собеседовании часто просят дать определение, и большинство кандидатов отвечают неправильно.

Правильное определение: p-value — это вероятность получить такой же или более экстремальный результат, при условии, что H0 верна. Это НЕ вероятность того, что H0 верна. Это НЕ вероятность ошибки.

Как объяснять: представьте, что разницы между группами нет (H0 верна). p-value показывает, насколько вероятно было бы увидеть такую или ещё большую разницу просто из-за случайности.

Пример: p-value = 0.03 означает, что при истинной H0 мы увидели бы такой результат в 3% случаев. Это редко, поэтому мы отвергаем H0.

Важно: p-value не говорит о размере эффекта. Маленький p-value при огромной выборке может означать статистически значимую, но практически бессмысленную разницу. Всегда смотрите на доверительные интервалы и effect size.

Уровень значимости

Уровень значимости (альфа) — порог, ниже которого p-value считается достаточно маленьким для отвержения H0. Стандартное значение — 0.05 (5%).

Ошибка первого рода (Type I) — отвергаем H0, хотя она верна. Вероятность этой ошибки равна альфа. При alpha = 0.05 мы готовы ошибиться в 5% случаев.

Ошибка второго рода (Type II) — не отвергаем H0, хотя она ложна. Вероятность обозначается бета. Мощность теста = 1 - бета.

На собеседовании часто спрашивают: «Почему бы не взять alpha = 0.001, чтобы ошибаться реже?» Ответ: чем ниже альфа, тем выше бета — мы будем пропускать реальные эффекты. Нужен баланс.

t-тест и хи-квадрат

t-тест — основной инструмент для сравнения средних. Одновыборочный проверяет, отличается ли среднее от заданного значения. Двухвыборочный сравнивает средние двух групп — стандартный тест для A/B-экспериментов с непрерывными метриками (выручка, время). Условия: данные приблизительно нормальны или выборка достаточно большая (CLT). При разных дисперсиях используйте тест Уэлча.

Хи-квадрат — для категориальных данных. Тест независимости проверяет связь между переменными (зависит ли конверсия от источника трафика). Тест согласия — соответствует ли наблюдаемое распределение ожидаемому.

Когда что? Для бинарных метрик (конверсия) — хи-квадрат привычнее. Для средних — только t-тест.

Как объяснять результаты

На собеседовании часто дают результат теста и просят интерпретировать. Структура ответа:

  1. Сформулируйте гипотезы — что именно сравниваем
  2. Назовите тест и почему он подходит — тип данных, размер выборки
  3. Интерпретируйте p-value — без фразы «вероятность, что H0 верна»
  4. Оцените практическую значимость — размер эффекта, доверительный интервал, бизнес-смысл

Совет: Не ограничивайтесь p-value. Интервьюер оценит, если вы упомянете мощность теста, размер эффекта и минимально детектируемый эффект (MDE). Это показывает зрелость статистического мышления.

FAQ

Что отвечать, если p-value = 0.06?

Формально при alpha = 0.05 мы не отвергаем H0. Но правильный ответ на собеседовании — не бинарный. Скажите, что результат пограничный, посмотрите на доверительный интервал и размер эффекта. Возможно, нужна большая выборка. Жёсткая граница 0.05 — условность, а не закон природы.

Какой тест выбрать для A/B-теста?

Зависит от метрики. Для конверсии (бинарная) — z-тест или хи-квадрат. Для среднего чека, времени на сайте — t-тест. Для метрик с тяжёлыми хвостами (выручка) — рассмотрите бутстрап или Mann-Whitney. Подробнее в разделе A/B-тестирование.

Как связаны p-value и доверительный интервал?

Напрямую. Если 95% доверительный интервал для разницы не включает ноль, p-value будет меньше 0.05. Это два способа сказать одно и то же, но доверительный интервал информативнее — он показывает диапазон правдоподобных значений эффекта. Полный разбор — в разделе статистика. Смотрите также примеры вопросов и советы по подготовке.