Ошибка I и II рода: разница и баланс на собесе

Ошибки I и II рода — основа проверки гипотез и A/B-тестов. I — мы отвергли H0, хотя она верна (ложная тревога). II — не отвергли, хотя она ложна (упустили эффект). На собесе по A/B это must know.

Если коротко. I род — «нашли» эффект, которого нет (false positive, вероятность α). II род — «не нашли» реальный эффект (false negative, вероятность β). Снижение одной обычно повышает другую.
Проверь себя · 1/3разбор после ответа
В A/B-тесте группы сформированы случайно, а распределение метрики далеко от нормального. Вам нужен p-value для H0: разницы нет. Что наиболее естественно использовать?

Ошибка I рода vs Ошибка II рода: таблица различий

ПараметрОшибка I родаОшибка II рода
Что произошлоОтвергли H0 (есть эффект)Не отвергли H0 (нет эффекта)
РеальностьH0 верна (эффекта нет)H0 ложна (эффект есть)
Метрикаα (обычно 5%)β
Мощность теста1 − β (целятся ≥ 80%)
Контролируется черезУровень значимостиРазмер выборки + MDE
Как влияют друг на другаСнижая α, растим βСнижая β, растим α

Когда использовать Ошибка I рода

Когда использовать Ошибка II рода

Ловушка на собесе

Любимый вопрос на собесе: «какую ошибку считать опаснее в A/B?». Зависит от контекста. Для «do no harm»-фич (платежи, реклама) опаснее I, для «discovery»-экспериментов — II. Не отвечайте «I» автоматически.
Тренировать статистику в Telegram

Ещё сравнения по теме