Ошибки первого и второго рода простыми словами
Что такое ошибки первого и второго рода
При проверке статистических гипотез вы принимаете решение: отклонить нулевую гипотезу (H0) или нет. Решение может быть правильным, а может — ошибочным. Ошибки бывают двух типов.
Ошибка первого рода (Type I error, false positive) — вы отклонили H0, хотя на самом деле она верна. Эффекта нет, но вы решили, что он есть.
Ошибка второго рода (Type II error, false negative) — вы не отклонили H0, хотя эффект реально существует. Эффект есть, но вы его не заметили.
Проще всего представить это в виде таблицы:
| H0 верна (эффекта нет) | H0 ложна (эффект есть) | |
|---|---|---|
| Отклонили H0 | Ошибка I рода (alpha) | Верное решение |
| Не отклонили H0 | Верное решение | Ошибка II рода (beta) |
Аналогия: пожарная сигнализация
Представьте пожарную сигнализацию в офисе. H0 — «пожара нет».
Ошибка первого рода — сигнализация сработала, все эвакуировались, но пожара не было. Ложная тревога. Неприятно: потеряли время, нервы, рабочие часы.
Ошибка второго рода — пожар начался, а сигнализация молчит. Пропуск реальной угрозы. Последствия куда серьёзнее.
Идеальная сигнализация не допускает ни того, ни другого. Но в реальности настройка чувствительности — это компромисс. Сделаете сигнализацию слишком чувствительной — будет срабатывать от каждого тоста. Сделаете менее чувствительной — рискуете пропустить настоящий пожар.
Alpha и beta
Вероятность ошибки первого рода обозначают alpha (α). Это тот самый уровень значимости, который вы выбираете до эксперимента. Стандартное значение — 0.05 (5%). Устанавливая alpha = 0.05, вы соглашаетесь с тем, что в 5% случаев при отсутствии реального эффекта ошибочно «найдёте» его.
Вероятность ошибки второго рода обозначают beta (β). Стандартное значение — 0.20 (20%). Связанная величина — мощность теста (power) = 1 − β. При beta = 0.20 мощность равна 0.80: вы обнаружите реальный эффект в 80% случаев.
Связь с p-value: если p-value < alpha, вы отклоняете H0. Выбор alpha напрямую определяет, как часто вы будете совершать ошибку первого рода.
Компромисс: снижаем одну — растёт другая
Alpha и beta связаны обратной зависимостью при фиксированном размере выборки. Если вы ужесточите порог значимости (например, alpha с 0.05 до 0.01), вам станет сложнее отклонить H0 — вы будете реже совершать ошибки первого рода. Но одновременно вырастет beta: вы чаще начнёте пропускать реальные эффекты.
Единственный способ снизить оба показателя одновременно — увеличить размер выборки. Больше данных = точнее оценка = меньше обоих типов ошибок.
Ошибки I и II рода в A/B тестах
В A/B тестировании ошибки первого и второго рода имеют конкретный продуктовый смысл.
Ошибка первого рода — вы раскатили фичу, которая на самом деле не работает. Тест показал значимую разницу, вы внедрили изменение, но эффекта не было — это было случайное отклонение. Последствия: потраченные ресурсы разработки, возможная деградация метрик, которую вы заметите только через время.
Ошибка второго рода — вы не раскатили фичу, которая реально улучшала метрику. Тест не показал значимости, вы откатили изменение, хотя оно работало. Последствия: упущенная прибыль, потерянный рост.
Что хуже — зависит от контекста. Если вы тестируете редизайн страницы оплаты, ложноположительный результат может стоить миллионы — лучше перестраховаться (alpha = 0.01). Если тестируете цвет кнопки, цена ошибки невысока — стандартные alpha = 0.05 и beta = 0.20 подойдут.
Примеры из продуктовой аналитики
Пример 1. Рекомендательная система. Вы внедрили новый алгоритм рекомендаций и запустили A/B тест. Ошибка I рода: алгоритм не лучше старого, но тест сказал «лучше» — вы раскатили бесполезное изменение и потеряли время на поддержку нового кода. Ошибка II рода: алгоритм реально лучше, но тест не набрал значимости (маленькая выборка) — вы откатили улучшение.
Пример 2. Ценовой эксперимент. Вы тестируете повышение цены подписки. Ошибка I рода: конверсия «не упала» — но на самом деле упала, просто тест не уловил. Вы подняли цену и потеряли пользователей. Ошибка II рода: конверсия упала, тест показал падение — но вы перестраховались и не подняли цену, которая на самом деле была оптимальной.
Пример 3. Пуш-уведомления. Вы тестируете новое время отправки пушей. Ошибка I рода: новое время «лучше», но это шум — вы переключились на неоптимальный слот. Ошибка II рода: новое время реально лучше, но эффект маленький, и тест его не поймал.
Как контролировать ошибки
Размер выборки. Главный рычаг. Увеличивая выборку, вы повышаете мощность теста (снижаете beta), не жертвуя alpha. Рассчитывайте необходимый размер выборки до запуска теста.
Уровень значимости (alpha). Выбирайте до эксперимента в зависимости от цены ошибки первого рода. Для большинства продуктовых тестов — 0.05. Для критичных решений — 0.01.
Размер эффекта (MDE). Minimum detectable effect — минимальный эффект, который вы хотите обнаружить. Чем меньше MDE, тем больше нужна выборка. Если разница в 0.1% вам не важна — не пытайтесь её обнаружить.
Мощность теста. Стандарт — 80%. Для важных решений — 90%. Чем выше мощность, тем меньше шанс пропустить реальный эффект, но тем больше нужна выборка.
Вопросы с собеседований
1. Что такое ошибка первого и второго рода? Объясните простыми словами.
Ошибка первого рода — ложная тревога: вы решили, что эффект есть, а его нет. Ошибка второго рода — пропуск: эффект был, а вы его не заметили. Вероятности этих ошибок обозначают alpha и beta соответственно.
2. Как связаны alpha, beta и размер выборки?
При фиксированной выборке снижение alpha приводит к росту beta — и наоборот. Увеличение выборки позволяет снизить оба показателя. Поэтому расчёт размера выборки до запуска A/B теста — обязательный шаг.
3. Что хуже — ошибка первого или второго рода?
Зависит от контекста. Если вы тестируете изменение в платёжном потоке, ошибка первого рода (раскатить сломанное) обходится дороже. Если тестируете фичу роста, ошибка второго рода (упустить работающее улучшение) — это потеря дохода. Универсального ответа нет — нужно оценивать стоимость каждого типа ошибки.
4. Мощность теста 80%. Что это значит?
Мощность 80% означает, что если эффект реально существует, тест обнаружит его в 80% случаев. В оставшихся 20% тест покажет незначимый результат (ошибка второго рода). Мощность = 1 − beta.
5. Как увеличить мощность A/B теста?
Четыре способа: увеличить размер выборки, увеличить alpha (ослабить порог значимости), ориентироваться на больший размер эффекта (MDE), снизить дисперсию метрики (например, через CUPED или стратификацию).
Потренируйтесь на задачах по статистике и A/B тестам — откройте тренажёр.
FAQ
Что такое ошибка первого рода простыми словами?
Ошибка первого рода (Type I, false positive) — это ситуация, когда вы решили, что эффект есть, но на самом деле его нет. Например, A/B тест показал, что новая кнопка повышает конверсию, а на деле разницы нет — это было случайное отклонение. Вероятность такой ошибки контролируется уровнем значимости alpha (обычно 5%).
Чем отличается ошибка первого рода от ошибки второго рода?
Ошибка первого рода — ложная тревога (нашли эффект, которого нет). Ошибка второго рода — пропуск (не нашли эффект, который есть). Первую контролирует alpha, вторую — beta. Снижение одной при фиксированной выборке ведёт к росту другой.
Как связаны ошибки первого и второго рода с p-value?
P-value сравнивают с порогом alpha. Если p-value < alpha — отклоняете H0, рискуя ошибкой первого рода. Если p-value >= alpha — не отклоняете H0, рискуя ошибкой второго рода. Чем строже alpha (например, 0.01 вместо 0.05), тем реже ложные тревоги, но чаще пропуски.
Какой размер выборки нужен, чтобы снизить обе ошибки?
Размер выборки зависит от alpha, beta (мощности) и минимального детектируемого эффекта (MDE). Для типичного A/B теста (alpha = 0.05, мощность = 80%, MDE = 1 п.п. при базовой конверсии 10%) нужно порядка 15 000 пользователей на группу. Подробнее — в статье про размер выборки.