22 апреля 2026 г.·4 мин чтения

Ошибки I и II рода простыми словами

Q: Type 3 error?

Есть концепт — «правильный ответ на неправильный вопрос». Не стандартный.

Q: Snimal α = 0.001?

В critical research. Нужна большая выборка.

Проверь себя · 1/3разбор после ответа

Вы хотите заменить NULL в столбце источника перехода на значение 'direct'. Какой вариант записан корректно и эквивалентен по смыслу?

Зачем это знать

Ошибки I и II рода — fundamental concept статистики и A/B-тестов. На собеседовании middle-аналитика спросят обязательно: «что такое α и β?», «почему power 80%?». Без этих знаний статистические тесты превращаются в чёрный ящик с непонятными результатами.

На работе это проявляется ежедневно. Кликнуть «catть» на A/B-тесте с p<0.05 — рискуете Type 1 error (ложная уверенность). Cancel тест при p=0.15 — рискуете Type 2 (упустили реальный эффект). Баланс этих рисков — суть A/B-testing.

В статье:

Короткий ответ с примерами
α (alpha) и β (beta)
Power analysis
Когда Type 1 хуже
Когда Type 2 хуже
Trade-off и выбор

Короткий ответ

Type I error (α): ложноположительное — сказать «есть эффект», когда его нет
Type II error (β): ложноотрицательное — сказать «эффекта нет», когда он есть

По аналогии с медициной:

Type I: диагностировали здоровому → лечение ненужное
Type II: не диагностировали больному → пропустили болезнь

Матрица решения

                Реальность: H0 верна    Реальность: H1 верна
Отвергли H0     Type I error (α)         Правильно (1-β) = power
Не отвергли H0  Правильно (1-α)          Type II error (β)

Примеры

A/B-тест новой фичи

H0: фича не улучшает conversion. H1: улучшает.

Type I: запустили фичу, думая что улучшает. На самом деле нет. Потеряли ресурсы на бесполезный релиз.
Type II: не запустили, думая что не улучшает. На самом деле — улучшает. Упустили бесплатный рост.

Fraud detection

Type I: legit-транзакцию заблокировали как fraud. Клиент злой.
Type II: fraud пропустили. Потеряли деньги.

Spam filter

Type I: важное письмо в spam.
Type II: spam в inbox.

Covid test

Type I: здорового положили в карантин.
Type II: заражённого пропустили.

α и β

α (alpha) — вероятность Type I. Обычно 0.05 (5%).
β (beta) — вероятность Type II. Обычно 0.20 (20%).
Power (мощность) = 1 - β = 80% — вероятность обнаружить реальный эффект.

Why 0.05 для α

Исторически принято. Фишер предложил в 1925 году. Нет глубокого математического обоснования.

В критичных задачах — α = 0.01 (строже). В exploratory — 0.10 (слабее).

Why 80% power

Компромисс. Выше power → нужна большая выборка → дольше тест.

Для critical decisions — 90-95% power.

Trade-off

Снизить Type I → увеличиваем Type II (при той же выборке).

Примеры:

α = 0.01 (строгая): редко ложно отвергнем, но часто пропускаем реальные эффекты
α = 0.10 (слабая): чаще ложные открытия, но реже пропускаем

Нельзя одновременно снизить оба без увеличения выборки.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Когда Type I важнее

Cost of false positive high:

Запускать lasting product change
Медицинские вмешательства
Публиковать в научный журнал
Судебные решения

Стратегия: низкая α (0.01), консервативные тесты.

Когда Type II важнее

Cost of missing real effect high:

Screening (cancer, fraud)
Early-stage experiments
Low-cost interventions

Стратегия: высокая power (90%+), accept more false positives.

Как снизить оба

Увеличить выборку N. N ∝ 1/MDE² — чтобы вдвое меньшие effects детектить нужно N × 4.

Связь с power analysis

Power analysis связывает 4 параметра:

α
β (power)
MDE (minimum detectable effect)
N (размер выборки)

Задав 3 — получите 4-й. Если хотите α=5%, power=80%, MDE=2%, — рассчитайте нужный N.

В продуктовой аналитике

Часто α = 0.05, power = 80% — стандартные.

Но иногда:

Consumer internet: α до 0.10 (быстро итерируем)
Finance / health: α = 0.01 (осторожно)
Test launch / rollout: добавьте guardrail metrics

На собесе

«Что такое Type I?» Ложноположительное. Увидели эффект, которого нет.

«Как связаны α и power?» 1 - β = power. Обычно α = 0.05, power = 80%.

«Как снизить оба?» Увеличить выборку.

«В fraud — что критичнее?» Type II (пропустить fraud — дороже false alarm).

Частые ошибки

1. α=0.05 слепо

Не всегда 0.05 оптимально. Зависит от cost.

2. Ignore power

Low-powered tests → много false negatives. Не катим хорошие фичи.

3. p-hacking

Множественное тестирование без поправки раздувает Type I.

4. Post-hoc анализ

«Не значимо, но на сегменте X значимо» → p-hacking.

Связанные темы

FAQ

Type 3 error?