Ошибки I и II рода простыми словами

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Зачем это знать

Ошибки I и II рода — fundamental concept статистики и A/B-тестов. На собеседовании middle-аналитика спросят обязательно: «что такое α и β?», «почему power 80%?». Без этих знаний статистические тесты превращаются в чёрный ящик с непонятными результатами.

На работе это проявляется ежедневно. Кликнуть «catть» на A/B-тесте с p<0.05 — рискуете Type 1 error (ложная уверенность). Cancel тест при p=0.15 — рискуете Type 2 (упустили реальный эффект). Баланс этих рисков — суть A/B-testing.

В статье:

  • Короткий ответ с примерами
  • α (alpha) и β (beta)
  • Power analysis
  • Когда Type 1 хуже
  • Когда Type 2 хуже
  • Trade-off и выбор

Короткий ответ

  • Type I error (α): ложноположительное — сказать «есть эффект», когда его нет
  • Type II error (β): ложноотрицательное — сказать «эффекта нет», когда он есть

По аналогии с медициной:

  • Type I: диагностировали здоровому → лечение ненужное
  • Type II: не диагностировали больному → пропустили болезнь

Матрица решения

                Реальность: H0 верна    Реальность: H1 верна
Отвергли H0     Type I error (α)         Правильно (1-β) = power
Не отвергли H0  Правильно (1-α)          Type II error (β)

Примеры

A/B-тест новой фичи

H0: фича не улучшает conversion. H1: улучшает.

  • Type I: запустили фичу, думая что улучшает. На самом деле нет. Потеряли ресурсы на бесполезный релиз.
  • Type II: не запустили, думая что не улучшает. На самом деле — улучшает. Упустили бесплатный рост.

Fraud detection

  • Type I: legit-транзакцию заблокировали как fraud. Клиент злой.
  • Type II: fraud пропустили. Потеряли деньги.

Spam filter

  • Type I: важное письмо в spam.
  • Type II: spam в inbox.

Covid test

  • Type I: здорового положили в карантин.
  • Type II: заражённого пропустили.

α и β

  • α (alpha) — вероятность Type I. Обычно 0.05 (5%).
  • β (beta) — вероятность Type II. Обычно 0.20 (20%).
  • Power (мощность) = 1 - β = 80% — вероятность обнаружить реальный эффект.

Why 0.05 для α

Исторически принято. Фишер предложил в 1925 году. Нет глубокого математического обоснования.

В критичных задачах — α = 0.01 (строже). В exploratory — 0.10 (слабее).

Why 80% power

Компромисс. Выше power → нужна большая выборка → дольше тест.

Для critical decisions — 90-95% power.

Trade-off

Снизить Type I → увеличиваем Type II (при той же выборке).

Примеры:

  • α = 0.01 (строгая): редко ложно отвергнем, но часто пропускаем реальные эффекты
  • α = 0.10 (слабая): чаще ложные открытия, но реже пропускаем

Нельзя одновременно снизить оба без увеличения выборки.

Когда Type I важнее

Cost of false positive high:

  • Запускать lasting product change
  • Медицинские вмешательства
  • Публиковать в научный журнал
  • Судебные решения

Стратегия: низкая α (0.01), консервативные тесты.

Когда Type II важнее

Cost of missing real effect high:

  • Screening (cancer, fraud)
  • Early-stage experiments
  • Low-cost interventions

Стратегия: высокая power (90%+), accept more false positives.

Как снизить оба

Увеличить выборку N. N ∝ 1/MDE² — чтобы вдвое меньшие effects детектить нужно N × 4.

Связь с power analysis

Power analysis связывает 4 параметра:

  • α
  • β (power)
  • MDE (minimum detectable effect)
  • N (размер выборки)

Задав 3 — получите 4-й. Если хотите α=5%, power=80%, MDE=2%, — рассчитайте нужный N.

В продуктовой аналитике

Часто α = 0.05, power = 80% — стандартные.

Но иногда:

  • Consumer internet: α до 0.10 (быстро итерируем)
  • Finance / health: α = 0.01 (осторожно)
  • Test launch / rollout: добавьте guardrail metrics

На собесе

«Что такое Type I?» Ложноположительное. Увидели эффект, которого нет.

«Как связаны α и power?» 1 - β = power. Обычно α = 0.05, power = 80%.

«Как снизить оба?» Увеличить выборку.

«В fraud — что критичнее?» Type II (пропустить fraud — дороже false alarm).

Частые ошибки

1. α=0.05 слепо

Не всегда 0.05 оптимально. Зависит от cost.

2. Ignore power

Low-powered tests → много false negatives. Не катим хорошие фичи.

3. p-hacking

Множественное тестирование без поправки раздувает Type I.

4. Post-hoc анализ

«Не значимо, но на сегменте X значимо» → p-hacking.

Связанные темы

FAQ

Type 3 error?

Есть концепт — «правильный ответ на неправильный вопрос». Не стандартный.

Snimal α = 0.001?

В critical research. Нужна большая выборка.

Power > 95%?

Для critical decisions. В большинстве случаев 80% достаточно.

В ML аналог?

Precision-recall — похожий trade-off.


Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.