Почему стратегия «остановили, как только стало значимо» часто приводит к завышенному effect size и lift?
AПотому что
effect size при ранней остановке всегда становится несмещённымBПотому что
lift фиксируется ровно на истинном значении и больше не меняетсяCПотому что при
optional stopping вы чаще останавливаетесь на шумовом всплеске, и оценка эффекта систематически завышаетсяDПотому что
randomization делает раннюю остановку невозможнойПравильный ответ. При
optional stopping вы чаще фиксируете шумовой пик (selection on significance), поэтому оценка effect size/lift склонна завышаться.Разбор
Если эксперимент останавливают в момент, когда метрика случайно оказалась выше обычного, именно это значение попадает в отчёт. При продолжении теста эффект часто «усредняется» и становится меньше. Поэтому без корректного sequential testing ранняя остановка может создать иллюзию большого lift и привести к неверным решениям.
Проверь себя · 1/3разбор после ответа
У вас нет инфраструктуры для
sequential testing, но команда хочет минимизировать риски от peeking. Какой подход самый безопасный и простой?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает `A/B test` и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает и объявляет победу. В чём главный риск такого `peeking`?
- Что лучше всего описывает `stopping rule` в контексте `sequential testing`?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала `fixed horizon`: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого `peeking` на `Type I error` для основной проверки?
- Что такое `alpha spending` в `sequential testing`?
- Почему в корректном `sequential testing` порог для ранней остановки обычно более строгий, чем в конце эксперимента?
- Все вопросы по «Секвенциальное тестирование» →