28 июня 2026 г.·13 мин чтения

Ошибки первого и второго рода простыми словами

Q: Как связаны ошибки первого и второго рода с p-value?

[P-value](/blog/p-value-prostymi-slovami) сравнивают с порогом alpha. Если p-value меньше alpha — отклоняете H0, рискуя ошибкой первого рода. Если p-value не меньше alpha — не отклоняете H0, рискуя ошибкой второго рода. Чем строже alpha (например, 0.01 вместо 0.05), тем реже ложные тревоги, но чаще пропуски.

Проверь себя · 1/3разбор после ответа

В таблице users адрес электронной почты хранится в разном регистре: Anna@mail.ru, anna@MAIL.ru и т.д. Как надёжнее всего найти все записи с конкретным адресом вне зависимости от регистра?

Содержание:

Что такое ошибки первого и второго рода
Аналогия и мнемоника
Alpha, beta и мощность теста
Компромисс между ошибками
Ошибки I и II рода в A/B тестах
Примеры из продуктовой аналитики
Как контролировать ошибки
Вопросы с собеседований
Частые ошибки
Связанные темы
FAQ

Что такое ошибки первого и второго рода

Это один из самых частых вопросов на собеседовании аналитика по статистике, и на нём же чаще всего путаются. Кандидат уверенно говорит про alpha и p-value, а потом не может объяснить, чем именно ошибка первого рода отличается от второй, или какая из них дороже бизнесу. Разберём так, чтобы вы могли объяснить это за минуту и не запутаться под давлением.

При проверке статистических гипотез вы принимаете решение: отклонить нулевую гипотезу (H0) или нет. Решение может быть правильным, а может — ошибочным. Поскольку реальность бывает двух видов (эффект есть / эффекта нет) и решение бывает двух видов (отклонили / не отклонили), ошибиться можно ровно двумя способами.

Ошибка первого рода (Type I error, false positive) — вы отклонили H0, хотя на самом деле она верна. Эффекта нет, но вы решили, что он есть. Это ложноположительный результат: ложная тревога, выдуманное открытие.

Ошибка второго рода (Type II error, false negative) — вы не отклонили H0, хотя эффект реально существует. Эффект есть, но вы его не заметили. Это ложноотрицательный результат: упущенный сигнал.

Проще всего держать всю картину в голове через таблицу 2x2 «реальность против решения»:

	H0 верна (эффекта нет)	H0 ложна (эффект есть)
Отклонили H0	Ошибка I рода (alpha)	Верное решение (мощность)
Не отклонили H0	Верное решение	Ошибка II рода (beta)

Диагональ таблицы — верные решения, два других угла — два типа ошибок. Обратите внимание: ошибка живёт только в одной клетке каждой строки, и обе ошибки не могут случиться одновременно в одном тесте — реальность-то одна.

Аналогия и мнемоника

Самая наглядная аналогия — пожарная сигнализация в офисе. Нулевая гипотеза здесь: «пожара нет».

Ошибка первого рода — сигнализация сработала, все эвакуировались, но пожара не было. Ложная тревога. Неприятно: потеряли время, нервы, рабочие часы.

Ошибка второго рода — пожар начался, а сигнализация молчит. Пропуск реальной угрозы. Последствия куда серьёзнее.

Идеальная сигнализация не допускает ни того, ни другого. Но в реальности настройка чувствительности — это компромисс. Сделаете сигнализацию слишком чувствительной — она будет срабатывать от каждого тоста (много ошибок I рода). Сделаете менее чувствительной — рискуете проспать настоящий пожар (ошибка II рода).

Чтобы не путать, какая ошибка какая, помогает мнемоника про мальчика, который кричал «Волки!». Сначала он поднимает ложную тревогу — волка нет, но все прибежали: это ошибка первого рода. В конце волк приходит по-настоящему, а деревня уже не реагирует и пропускает реальную угрозу: это ошибка второго рода. Порядок в сказке тот же, что и в нумерации: сначала ложная тревога (I), потом пропуск (II). Ещё одна подсказка по буквам: alpha — первая буква алфавита и относится к ошибке первого рода, beta — вторая буква и относится ко второй.

Alpha, beta и мощность теста

Вероятность ошибки первого рода обозначают alpha (α). Это тот самый уровень значимости, который вы выбираете до эксперимента. Стандартное значение — 0.05 (5%). Устанавливая alpha = 0.05, вы заранее соглашаетесь: в 5% случаев, когда реального эффекта нет, тест всё равно ошибочно «найдёт» его. Это плата, на которую вы идёте осознанно.

Вероятность ошибки второго рода обозначают beta (β). Типичное приемлемое значение — 0.20 (20%). С beta напрямую связана мощность теста (power): мощность = 1 − beta. При beta = 0.20 мощность равна 0.80, то есть тест обнаружит реально существующий эффект в 80% случаев, а в оставшихся 20% — пропустит. Мощность отвечает на вопрос «насколько хорошо мой тест умеет ловить настоящие эффекты».

Важно понимать разницу в природе двух величин. Alpha вы задаёте сами одним числом до старта. Beta же не выставляется напрямую — она вытекает из четырёх вещей: выбранной alpha, размера выборки, реального размера эффекта и разброса (дисперсии) метрики. Поэтому управлять ошибкой второго рода можно только косвенно, через эти рычаги.

Связь с p-value простая: если p-value меньше alpha, вы отклоняете H0. Выбор alpha напрямую определяет, как часто вы будете совершать ошибку первого рода, потому что именно alpha задаёт планку, ниже которой результат считается «значимым».

Компромисс между ошибками

Главное, что нужно усвоить: alpha и beta связаны обратной зависимостью при фиксированном размере выборки. Это не получится обойти хитрой настройкой — это математика.

Если вы ужесточите порог значимости (например, опустите alpha с 0.05 до 0.01), отклонять H0 станет труднее. Вы реже будете поднимать ложную тревогу — ошибок первого рода станет меньше. Но ровно тем же движением вы поднимаете планку и для настоящих эффектов: слабые реальные сигналы теперь чаще не дотягивают до значимости. Beta растёт, мощность падает, вы чаще пропускаете работающие изменения. И наоборот: ослабите alpha до 0.10 — поймаете больше реальных эффектов, но и ложных открытий получите больше.

Единственный способ снизить оба показателя одновременно — увеличить размер выборки. Больше данных означает более точную оценку эффекта и более узкие доверительные интервалы, а значит, тест лучше отличает настоящий сигнал от шума. С большой выборкой вы можете держать alpha строгой и при этом сохранять высокую мощность. Поэтому когда на собеседовании спрашивают «как уменьшить обе ошибки сразу», единственный честный ответ — набрать больше наблюдений.

Ошибки I и II рода в A/B тестах

В A/B тестировании ошибки первого и второго рода имеют конкретный продуктовый смысл — и за каждой стоят деньги.

Ошибка первого рода — вы раскатили фичу, которая на самом деле не работает. Тест показал значимую разницу, вы внедрили изменение, но эффекта не было: это было случайное отклонение. Последствия — потраченные ресурсы разработки, усложнение кодовой базы, а иногда и тихая деградация метрик, которую вы заметите только спустя недели.

Ошибка второго рода — вы не раскатили фичу, которая реально улучшала метрику. Тест не показал значимости, вы откатили изменение, хотя оно работало. Последствия — упущенная прибыль и потерянный рост, причём в отличие от ошибки первого рода вы об этом, скорее всего, никогда не узнаете.

Что хуже — зависит от контекста, и хороший аналитик это проговаривает. Если вы тестируете редизайн страницы оплаты, ложноположительный результат может стоить миллионы — лучше перестраховаться и взять alpha = 0.01. Если тестируете цвет кнопки, цена ошибки невысока, и стандартные alpha = 0.05 и beta = 0.20 вполне подойдут. Универсального правила «какая ошибка важнее» нет — есть стоимость каждой в вашей конкретной задаче.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Примеры из продуктовой аналитики

Пример 1. Рекомендательная система. Вы внедрили новый алгоритм рекомендаций и запустили A/B тест. Ошибка I рода: алгоритм не лучше старого, но тест сказал «лучше» — вы раскатили бесполезное изменение и потеряли время на поддержку нового кода. Ошибка II рода: алгоритм реально лучше, но тест не набрал значимости из-за маленькой выборки — вы откатили улучшение, которое приносило бы деньги.

Пример 2. Ценовой эксперимент. Вы тестируете повышение цены подписки. Ошибка I рода: тест говорит, что конверсия «не упала», хотя на самом деле она просела, просто тест этого не уловил — вы подняли цену и потеряли пользователей. Ошибка II рода: тест показал падение конверсии, вы перестраховались и не стали поднимать цену, которая на деле была бы оптимальной.

Пример 3. Пуш-уведомления. Вы тестируете новое время отправки пушей. Ошибка I рода: новое время «лучше», но это шум — вы переключились на неоптимальный слот. Ошибка II рода: новое время реально лучше, но эффект маленький, и тест его не поймал, так что вы остались на старом расписании.

Как контролировать ошибки

Размер выборки. Главный рычаг. Увеличивая выборку, вы повышаете мощность теста (снижаете beta), не жертвуя alpha. Рассчитывайте необходимый размер выборки до запуска теста, а не после — иначе рискуете запустить заведомо «слепой» эксперимент, который физически не способен поймать ожидаемый эффект.

Уровень значимости (alpha). Выбирайте до эксперимента в зависимости от цены ошибки первого рода. Для большинства продуктовых тестов хватает 0.05, для критичных решений берите 0.01.

Размер эффекта (MDE). Minimum detectable effect — минимальный эффект, который вы хотите гарантированно различать. Чем меньше MDE, тем больше нужна выборка. Если разница в 0.1% вам бизнесово не важна, не стройте тест под её поимку — это просто сожжёт трафик.

Мощность теста. Стандарт — 80%, для важных решений — 90%. Чем выше мощность, тем меньше шанс пропустить реальный эффект, но тем больше нужна выборка.

Лучший способ перестать путать alpha и beta — прорешать десяток задач на гипотезы, мощность и p-value руками. Сделать это можно в тренажёре по статистике: там разбираются те самые формулировки, которые спрашивают на собеседованиях аналитика.

Вопросы с собеседований

1. Что такое ошибка первого и второго рода? Объясните простыми словами.

Ошибка первого рода — ложная тревога: вы решили, что эффект есть, а его нет. Ошибка второго рода — пропуск: эффект был, а вы его не заметили. Вероятности этих ошибок обозначают alpha и beta соответственно.

2. Как связаны alpha, beta и размер выборки?

При фиксированной выборке снижение alpha приводит к росту beta — и наоборот. Увеличение выборки позволяет снизить оба показателя одновременно. Поэтому расчёт размера выборки до запуска A/B теста — обязательный шаг.

3. Что хуже — ошибка первого или второго рода?

Зависит от контекста. Если вы тестируете изменение в платёжном потоке, ошибка первого рода (раскатить сломанное) обходится дороже. Если тестируете фичу роста, ошибка второго рода (упустить работающее улучшение) — это потеря дохода. Универсального ответа нет: нужно оценивать стоимость каждого типа ошибки в конкретной задаче.

4. Мощность теста 80%. Что это значит?

Мощность 80% означает, что если эффект реально существует, тест обнаружит его в 80% случаев. В оставшихся 20% тест покажет незначимый результат — это и есть ошибка второго рода. Формально мощность = 1 − beta.

5. Как увеличить мощность A/B теста?

Четыре способа: увеличить размер выборки, увеличить alpha (ослабить порог значимости), ориентироваться на больший размер эффекта (MDE) и снизить дисперсию метрики — например, через CUPED или стратификацию.

Частые ошибки

P-value считают вероятностью ошибки. Самое распространённое заблуждение: «p-value = 0.03, значит вероятность, что я ошибся, 3%». Это неверно. P-value — это вероятность увидеть такие же или более экстремальные данные при условии, что H0 верна. Это не вероятность того, что H0 верна, и не вероятность того, что ваш конкретный значимый результат ложный. Доля ложных открытий среди значимых результатов зависит ещё и от того, как часто реальные эффекты вообще встречаются в ваших тестах.

Alpha путают с долей ложных срабатываний среди находок. Alpha = 0.05 означает, что среди тестов, где эффекта нет, ложную тревогу вы поднимете в 5% случаев. Это не значит, что 5% всех ваших значимых результатов ложные — последнее (false discovery rate) зависит от априорной доли работающих гипотез и может быть сильно выше.

Считают, что «незначимо» равно «эффекта нет». Не отклонить H0 — не то же самое, что доказать её. Отсутствие доказательства эффекта не есть доказательство отсутствия эффекта: возможно, эффект есть, но у теста не хватило мощности его поймать. Поэтому после незначимого результата правильнее смотреть на доверительный интервал и мощность, а не объявлять «разницы нет».

Думают, что ужесточение alpha улучшает тест в целом. Снижая alpha, вы уменьшаете ошибки первого рода, но автоматически раздуваете beta. Бесплатно «сделать тест строже и точнее» одной только alpha нельзя — за это всегда платит мощность.

Подглядывают в тест до конца. Если каждый день заглядывать в A/B и останавливать тест, как только p-value опустилось ниже 0.05, фактическая вероятность ошибки первого рода будет в разы выше заявленных 5%. Многократные проверки накапливают alpha — это отдельная ловушка, которую нужно учитывать при дизайне эксперимента.

Связанные темы

FAQ

Что такое ошибка первого рода простыми словами?

Ошибка первого рода (Type I, false positive) — это ситуация, когда вы решили, что эффект есть, но на самом деле его нет. Например, A/B тест показал, что новая кнопка повышает конверсию, а на деле разницы нет — это было случайное отклонение. Вероятность такой ошибки контролируется уровнем значимости alpha (обычно 5%).

Чем отличается ошибка первого рода от ошибки второго рода?

Ошибка первого рода — ложная тревога (нашли эффект, которого нет). Ошибка второго рода — пропуск (не нашли эффект, который есть). Первую контролирует alpha, вторую — beta. Снижение одной при фиксированной выборке ведёт к росту другой.

Как связаны ошибки первого и второго рода с p-value?

P-value сравнивают с порогом alpha. Если p-value меньше alpha — отклоняете H0, рискуя ошибкой первого рода. Если p-value не меньше alpha — не отклоняете H0, рискуя ошибкой второго рода. Чем строже alpha (например, 0.01 вместо 0.05), тем реже ложные тревоги, но чаще пропуски.

Что такое мощность теста и как она связана с ошибками?

Мощность теста — это вероятность обнаружить реальный эффект, она равна 1 − beta. Если мощность 80%, то при существующем эффекте тест поймает его в 80% случаев, а в 20% совершит ошибку второго рода. Повысить мощность можно за счёт большей выборки, большего размера эффекта (MDE) или меньшей дисперсии метрики.

Какой размер выборки нужен, чтобы снизить обе ошибки?

Размер выборки зависит от alpha, beta (мощности) и минимального детектируемого эффекта (MDE). Для типичного A/B теста (alpha = 0.05, мощность = 80%, MDE = 1 п.п. при базовой конверсии 10%) нужно порядка 15 000 пользователей на группу. Подробнее — в статье про размер выборки.