Команда каждый день строит обычный 95% доверительный интервал для разницы метрики и останавливает эксперимент, когда интервал впервые не включает 0. Чем это принципиально отличается от подглядывания по p-value?

AЭто полностью безопасно: доверительный интервал и Type I error по построению независимы и не страдают от подглядывания
BЭто то же optional stopping: для частых проверок нужны последовательные методы, например границы через alpha spending
CЭто допустимо только без рандомизации, а с рандомизацией (A/B) ежедневная остановка по интервалу запрещена
DЭто увеличивает power теста, поэтому проблема ложных срабатываний исчезает сама без дополнительных корректировок
Правильный ответ. Это то же optional stopping: ежедневная остановка по обычному 95% интервалу раздувает ошибку I рода, если не использовать последовательные границы.

Разбор

Если вы проверяете интервал много раз и останавливаетесь, когда он впервые не включает 0, вы делаете несколько попыток найти «значимость». Это раздувает вероятность ошибки I рода точно так же, как подглядывание по p-value. Для частых проверок применяют последовательные методы — например, корректные границы через alpha spending или групповой последовательный дизайн. Иначе доля ложных находок будет существенно выше заявленных 5%.

Проверь себя · 1/2разбор после ответа
В эксперименте вы делали ежедневные проверки. На 3-й день получили p-value < alpha и остановили тест, но позже выяснилось, что при продолжении до 14 дней результат стал бы незначимым. Какое объяснение наиболее вероятно?
Тренировать A/B в Telegram

Ещё вопросы по теме «Секвенциальное тестирование»