Команда каждый день строит обычный 95% `confidence interval` для разницы метрики и останавливает эксперимент, когда интервал впервые не включает 0. Чем это принципиально отличается от `peeking` по `p-value`?

Question

Карьерник · Accepted Answer

Правильный ответ: Это полностью безопасно: `confidence interval` не связан с `Type I error`. Это тот же `optional stopping`: ежедневная остановка по обычному 95% CI раздувает `Type I error`, если не использовать sequential-границы. Если вы проверяете интервал много раз и останавливаетесь, когда он впервые не включает 0, вы снова делаете несколько попыток найти «значимость». Это увеличивает `false positive` так же, как `peeking` по `p-value`. Для частых проверок нужны методы `sequential testing`, например корректные границы через `alpha spending`.

Разбор

Ещё вопросы по теме «Секвенциальное тестирование»