Проверка гипотез на собеседовании аналитика
Почему проверка гипотез — ключевая тема
Проверка гипотез — фундамент принятия решений на основе данных. На собеседовании аналитика эта тема появляется практически всегда: от прямых вопросов про p-value до задач на интерпретацию результатов A/B-тестов. Интервьюер проверяет понимание логики статистического вывода и умение объяснить результат бизнесу.
H0 и H1: нулевая и альтернативная гипотезы
Любой статистический тест начинается с формулировки двух гипотез.
Нулевая гипотеза (H0) — утверждение, что эффекта нет. Конверсии в группах одинаковы, новая фича не влияет на метрику, разницы нет. H0 — это статус-кво, который мы пытаемся опровергнуть.
Альтернативная гипотеза (H1) — утверждение, что эффект есть. Конверсия в тестовой группе выше, средний чек изменился, разница существует.
Частая ошибка на собеседовании: кандидат говорит, что «мы доказали H0» или «приняли H0». Корректная формулировка — «мы не нашли оснований отвергнуть H0». Это не одно и то же: отсутствие доказательств эффекта не доказывает его отсутствие.
p-value: что это на самом деле
p-value — самый непонятый термин в статистике. На собеседовании часто просят дать определение, и большинство кандидатов отвечают неправильно.
Правильное определение: p-value — это вероятность получить такой же или более экстремальный результат, при условии, что H0 верна. Это НЕ вероятность того, что H0 верна. Это НЕ вероятность ошибки.
Как объяснять: представьте, что разницы между группами нет (H0 верна). p-value показывает, насколько вероятно было бы увидеть такую или ещё большую разницу просто из-за случайности.
Пример: p-value = 0.03 означает, что при истинной H0 мы увидели бы такой результат в 3% случаев. Это редко, поэтому мы отвергаем H0.
Важно: p-value не говорит о размере эффекта. Маленький p-value при огромной выборке может означать статистически значимую, но практически бессмысленную разницу. Всегда смотрите на доверительные интервалы и effect size.
Уровень значимости
Уровень значимости (альфа) — порог, ниже которого p-value считается достаточно маленьким для отвержения H0. Стандартное значение — 0.05 (5%).
Ошибка первого рода (Type I) — отвергаем H0, хотя она верна. Вероятность этой ошибки равна альфа. При alpha = 0.05 мы готовы ошибиться в 5% случаев.
Ошибка второго рода (Type II) — не отвергаем H0, хотя она ложна. Вероятность обозначается бета. Мощность теста = 1 - бета.
На собеседовании часто спрашивают: «Почему бы не взять alpha = 0.001, чтобы ошибаться реже?» Ответ: чем ниже альфа, тем выше бета — мы будем пропускать реальные эффекты. Нужен баланс.
t-тест и хи-квадрат
t-тест — основной инструмент для сравнения средних. Одновыборочный проверяет, отличается ли среднее от заданного значения. Двухвыборочный сравнивает средние двух групп — стандартный тест для A/B-экспериментов с непрерывными метриками (выручка, время). Условия: данные приблизительно нормальны или выборка достаточно большая (CLT). При разных дисперсиях используйте тест Уэлча.
Хи-квадрат — для категориальных данных. Тест независимости проверяет связь между переменными (зависит ли конверсия от источника трафика). Тест согласия — соответствует ли наблюдаемое распределение ожидаемому.
Когда что? Для бинарных метрик (конверсия) — хи-квадрат привычнее. Для средних — только t-тест.
Как объяснять результаты
На собеседовании часто дают результат теста и просят интерпретировать. Структура ответа:
- Сформулируйте гипотезы — что именно сравниваем
- Назовите тест и почему он подходит — тип данных, размер выборки
- Интерпретируйте p-value — без фразы «вероятность, что H0 верна»
- Оцените практическую значимость — размер эффекта, доверительный интервал, бизнес-смысл
Совет: Не ограничивайтесь p-value. Интервьюер оценит, если вы упомянете мощность теста, размер эффекта и минимально детектируемый эффект (MDE). Это показывает зрелость статистического мышления.
FAQ
Что отвечать, если p-value = 0.06?
Формально при alpha = 0.05 мы не отвергаем H0. Но правильный ответ на собеседовании — не бинарный. Скажите, что результат пограничный, посмотрите на доверительный интервал и размер эффекта. Возможно, нужна большая выборка. Жёсткая граница 0.05 — условность, а не закон природы.
Какой тест выбрать для A/B-теста?
Зависит от метрики. Для конверсии (бинарная) — z-тест или хи-квадрат. Для среднего чека, времени на сайте — t-тест. Для метрик с тяжёлыми хвостами (выручка) — рассмотрите бутстрап или Mann-Whitney. Подробнее в разделе A/B-тестирование.
Как связаны p-value и доверительный интервал?
Напрямую. Если 95% доверительный интервал для разницы не включает ноль, p-value будет меньше 0.05. Это два способа сказать одно и то же, но доверительный интервал информативнее — он показывает диапазон правдоподобных значений эффекта. Полный разбор — в разделе статистика. Смотрите также примеры вопросов и советы по подготовке.