Команда каждый день строит обычный 95% confidence interval для разницы метрики и останавливает эксперимент, когда интервал впервые не включает 0. Чем это принципиально отличается от peeking по p-value?
AЭто полностью безопасно:
confidence interval не связан с Type I errorBЭто запрещено только при
randomization, а без randomization допустимоCЭто увеличивает
power, поэтому проблема исчезает самаDЭто тот же
optional stopping, и для частых проверок нужны методы sequential testing, например границы через alpha spendingПравильный ответ. Это тот же
optional stopping: ежедневная остановка по обычному 95% CI раздувает Type I error, если не использовать sequential-границы.Разбор
Если вы проверяете интервал много раз и останавливаетесь, когда он впервые не включает 0, вы снова делаете несколько попыток найти «значимость». Это увеличивает false positive так же, как peeking по p-value. Для частых проверок нужны методы sequential testing, например корректные границы через alpha spending.
Проверь себя · 1/3разбор после ответа
Если вы заранее знаете, что будете делать 5 проверок одной метрики, какой простой консервативный способ контролировать общий
alpha можно использовать, если нет полноценного alpha spending?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает `A/B test` и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает и объявляет победу. В чём главный риск такого `peeking`?
- Что лучше всего описывает `stopping rule` в контексте `sequential testing`?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала `fixed horizon`: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого `peeking` на `Type I error` для основной проверки?
- Что такое `alpha spending` в `sequential testing`?
- Почему в корректном `sequential testing` порог для ранней остановки обычно более строгий, чем в конце эксперимента?
- Все вопросы по «Секвенциальное тестирование» →