Ошибки первого и второго рода на собеседовании

Почему это спрашивают

Ошибки первого и второго рода — фундамент статистического тестирования. Без понимания этих понятий невозможно грамотно спроектировать эксперимент или объяснить бизнесу, почему тест «не сработал». На собеседовании аналитика эту тему спрашивают почти всегда. Интервьюер проверяет не знание определений, а глубину понимания: как ошибки связаны между собой, какие trade-off возникают и как это влияет на бизнес-решения.

Ошибка первого рода (Type I Error)

Определение: вы отклоняете нулевую гипотезу, хотя она верна. Проще говоря — вы решили, что эффект есть, а на самом деле его нет. Это ложноположительный результат.

Alpha — вероятность совершить ошибку первого рода. Стандартное значение — 0.05 (5%). Это значит, что в 5% случаев вы объявите победителя, когда реальной разницы нет.

p-value — вероятность получить такой же или более экстремальный результат, если нулевая гипотеза верна. Если p-value < alpha, вы отклоняете нулевую гипотезу. Важно: p-value — это не вероятность того, что гипотеза верна.

Бизнес-последствия: компания внедряет изменение, которое на самом деле не работает. Ресурсы разработки потрачены зря, а метрика не растёт — или даже падает из-за побочных эффектов.

Частая ошибка на собеседовании — сказать, что p-value равен вероятности того, что нулевая гипотеза верна. Это неправильно. p-value — это вероятность данных при условии, что нулевая гипотеза верна, а не наоборот.

Ошибка второго рода (Type II Error)

Определение: вы не отклоняете нулевую гипотезу, хотя она ложна. Проще говоря — вы решили, что эффекта нет, а он на самом деле есть. Это ложноотрицательный результат.

Beta — вероятность совершить ошибку второго рода. Стандартное значение — 0.2 (20%).

Мощность теста (Power) = 1 - beta. При beta = 0.2 мощность равна 0.8 — это значит, что тест обнаружит реальный эффект в 80% случаев. Остальные 20% — упущенные возможности.

Бизнес-последствия: компания отказывается от изменения, которое на самом деле улучшает метрику. Упущенная прибыль, замедление роста продукта.

Trade-off между ошибками

Ошибки первого и второго рода связаны обратной зависимостью при фиксированном размере выборки:

  • Снижаете alpha (например, с 0.05 до 0.01) — становитесь строже к ложноположительным, но увеличиваете beta — чаще пропускаете реальные эффекты
  • Снижаете beta (увеличиваете мощность) — ловите больше реальных эффектов, но при фиксированной alpha нужно увеличить выборку
  • Единственный способ снизить обе ошибки одновременно — увеличить размер выборки

На собеседовании могут спросить: «Что важнее — снизить alpha или beta?» Ответ зависит от контекста. Если ложноположительное решение дорогое (масштабный редизайн) — приоритет alpha. Если цена упущенной возможности высока (быстрорастущий рынок) — приоритет мощности.

Как объяснять на собеседовании

Аналогия с судом: ошибка первого рода — осудить невиновного; второго рода — оправдать виновного. Alpha — порог доказательности, мощность — способность суда выявлять преступников.

Бизнес-термины: «Ошибка I рода — внедрим фичу, которая не работает. Ошибка II рода — откажемся от фичи, которая реально улучшает конверсию». Покажите связь с дизайном: «Я задаю alpha, мощность, MDE — считаю выборку. Если трафика мало, обсуждаю с бизнесом увеличение MDE, но не снижение alpha».

Типичные вопросы

  • «Что такое p-value простыми словами?» — вероятность увидеть такой результат случайно, если реальной разницы нет
  • «Почему alpha обычно 0.05?» — историческая конвенция; в медицине и финансах используют 0.01 или 0.001
  • «Можно ли alpha = 0.1?» — можно, если бизнес готов к 10% ложноположительных. Это trade-off, а не запрет

На собеседовании не бойтесь сказать: «Это зависит от контекста». Интервьюер оценит, что вы не зазубрили ответ, а понимаете trade-off между ошибками.

Ошибки первого и второго рода — основа для расчёта размера выборки. Alpha связана с множественными сравнениями, а выбор метрики эксперимента влияет на мощность теста.

FAQ

Какая ошибка хуже — первого или второго рода?

Зависит от ситуации. В медицине ошибка первого рода (одобрить неэффективное лекарство) опаснее — поэтому alpha ставят 0.01 или ниже. В продуктовых экспериментах часто опаснее ошибка второго рода — пропустить рабочую гипотезу дороже, чем откатить неудачный тест.

Почему мощность теста обычно 80%, а не 95%?

Увеличение мощности с 80% до 95% требует почти вдвое больше данных. 80% — разумный компромисс: вы ловите 4 из 5 реальных эффектов, не раздувая длительность теста. Для критичных решений повышают до 90%.

Как p-value связан с ошибкой первого рода?

Alpha — порог, установленный заранее (обычно 0.05). p-value — результат из данных. Если p-value < alpha, вы отклоняете нулевую гипотезу. Alpha контролирует долю ложноположительных решений: при alpha = 0.05 примерно 5% «значимых» результатов будут ложными.

Смотрите также