Команда каждый день строит обычный 95% доверительный интервал для разницы метрики и останавливает эксперимент, когда интервал впервые не включает 0. Чем это принципиально отличается от подглядывания по `p-value`?

Question

Карьерник · Accepted Answer

Правильный ответ: Это то же `optional stopping`: для частых проверок нужны последовательные методы, например границы через `alpha spending`. Это то же `optional stopping`: ежедневная остановка по обычному 95% интервалу раздувает ошибку I рода, если не использовать последовательные границы. Если вы проверяете интервал много раз и останавливаетесь, когда он впервые не включает 0, вы делаете несколько попыток найти «значимость». Это раздувает вероятность ошибки I рода точно так же, как подглядывание по `p-value`. Для частых проверок применяют последовательные методы — например, корректные границы через `alpha spending` или групповой последовательный дизайн. Иначе доля ложных находок будет существенно выше заявленных 5%.

Разбор

Ещё вопросы по теме «Секвенциальное тестирование»