Команда каждый день строит обычный 95% confidence interval для разницы метрики и останавливает эксперимент, когда интервал впервые не включает 0. Чем это принципиально отличается от peeking по p-value?

AЭто полностью безопасно: confidence interval не связан с Type I error
BЭто запрещено только при randomization, а без randomization допустимо
CЭто увеличивает power, поэтому проблема исчезает сама
DЭто тот же optional stopping, и для частых проверок нужны методы sequential testing, например границы через alpha spending
Правильный ответ. Это тот же optional stopping: ежедневная остановка по обычному 95% CI раздувает Type I error, если не использовать sequential-границы.

Разбор

Если вы проверяете интервал много раз и останавливаетесь, когда он впервые не включает 0, вы снова делаете несколько попыток найти «значимость». Это увеличивает false positive так же, как peeking по p-value. Для частых проверок нужны методы sequential testing, например корректные границы через alpha spending.

Проверь себя · 1/3разбор после ответа
Если вы заранее знаете, что будете делать 5 проверок одной метрики, какой простой консервативный способ контролировать общий alpha можно использовать, если нет полноценного alpha spending?
Тренировать A/B в Telegram

Ещё вопросы по теме «Секвенциальное тестирование»