Ошибки I и II рода простыми словами
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Зачем это знать
Ошибки I и II рода — fundamental concept статистики и A/B-тестов. На собеседовании middle-аналитика спросят обязательно: «что такое α и β?», «почему power 80%?». Без этих знаний статистические тесты превращаются в чёрный ящик с непонятными результатами.
На работе это проявляется ежедневно. Кликнуть «catть» на A/B-тесте с p<0.05 — рискуете Type 1 error (ложная уверенность). Cancel тест при p=0.15 — рискуете Type 2 (упустили реальный эффект). Баланс этих рисков — суть A/B-testing.
В статье:
- Короткий ответ с примерами
- α (alpha) и β (beta)
- Power analysis
- Когда Type 1 хуже
- Когда Type 2 хуже
- Trade-off и выбор
Короткий ответ
- Type I error (α): ложноположительное — сказать «есть эффект», когда его нет
- Type II error (β): ложноотрицательное — сказать «эффекта нет», когда он есть
По аналогии с медициной:
- Type I: диагностировали здоровому → лечение ненужное
- Type II: не диагностировали больному → пропустили болезнь
Матрица решения
Реальность: H0 верна Реальность: H1 верна
Отвергли H0 Type I error (α) Правильно (1-β) = power
Не отвергли H0 Правильно (1-α) Type II error (β)Примеры
A/B-тест новой фичи
H0: фича не улучшает conversion. H1: улучшает.
- Type I: запустили фичу, думая что улучшает. На самом деле нет. Потеряли ресурсы на бесполезный релиз.
- Type II: не запустили, думая что не улучшает. На самом деле — улучшает. Упустили бесплатный рост.
Fraud detection
- Type I: legit-транзакцию заблокировали как fraud. Клиент злой.
- Type II: fraud пропустили. Потеряли деньги.
Spam filter
- Type I: важное письмо в spam.
- Type II: spam в inbox.
Covid test
- Type I: здорового положили в карантин.
- Type II: заражённого пропустили.
α и β
- α (alpha) — вероятность Type I. Обычно 0.05 (5%).
- β (beta) — вероятность Type II. Обычно 0.20 (20%).
- Power (мощность) = 1 - β = 80% — вероятность обнаружить реальный эффект.
Why 0.05 для α
Исторически принято. Фишер предложил в 1925 году. Нет глубокого математического обоснования.
В критичных задачах — α = 0.01 (строже). В exploratory — 0.10 (слабее).
Why 80% power
Компромисс. Выше power → нужна большая выборка → дольше тест.
Для critical decisions — 90-95% power.
Trade-off
Снизить Type I → увеличиваем Type II (при той же выборке).
Примеры:
- α = 0.01 (строгая): редко ложно отвергнем, но часто пропускаем реальные эффекты
- α = 0.10 (слабая): чаще ложные открытия, но реже пропускаем
Нельзя одновременно снизить оба без увеличения выборки.
Когда Type I важнее
Cost of false positive high:
- Запускать lasting product change
- Медицинские вмешательства
- Публиковать в научный журнал
- Судебные решения
Стратегия: низкая α (0.01), консервативные тесты.
Когда Type II важнее
Cost of missing real effect high:
- Screening (cancer, fraud)
- Early-stage experiments
- Low-cost interventions
Стратегия: высокая power (90%+), accept more false positives.
Как снизить оба
Увеличить выборку N. N ∝ 1/MDE² — чтобы вдвое меньшие effects детектить нужно N × 4.
Связь с power analysis
Power analysis связывает 4 параметра:
- α
- β (power)
- MDE (minimum detectable effect)
- N (размер выборки)
Задав 3 — получите 4-й. Если хотите α=5%, power=80%, MDE=2%, — рассчитайте нужный N.
В продуктовой аналитике
Часто α = 0.05, power = 80% — стандартные.
Но иногда:
- Consumer internet: α до 0.10 (быстро итерируем)
- Finance / health: α = 0.01 (осторожно)
- Test launch / rollout: добавьте guardrail metrics
На собесе
«Что такое Type I?» Ложноположительное. Увидели эффект, которого нет.
«Как связаны α и power?» 1 - β = power. Обычно α = 0.05, power = 80%.
«Как снизить оба?» Увеличить выборку.
«В fraud — что критичнее?» Type II (пропустить fraud — дороже false alarm).
Частые ошибки
1. α=0.05 слепо
Не всегда 0.05 оптимально. Зависит от cost.
2. Ignore power
Low-powered tests → много false negatives. Не катим хорошие фичи.
3. p-hacking
Множественное тестирование без поправки раздувает Type I.
4. Post-hoc анализ
«Не значимо, но на сегменте X значимо» → p-hacking.
Связанные темы
- P-value простыми словами
- Null hypothesis простыми словами
- Power analysis простыми словами
- Размер выборки для A/B
- Поправка на множественные сравнения
FAQ
Type 3 error?
Есть концепт — «правильный ответ на неправильный вопрос». Не стандартный.
Snimal α = 0.001?
В critical research. Нужна большая выборка.
Power > 95%?
Для critical decisions. В большинстве случаев 80% достаточно.
В ML аналог?
Precision-recall — похожий trade-off.
Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.