Почему в корректном sequential testing порог для ранней остановки обычно более строгий, чем в конце эксперимента?
AЧтобы при нескольких
interim analysis суммарно сохранить заданный alpha и контроль Type I errorBПотому что в начале эксперимента
effect size всегда меньше, чем в концеCПотому что
randomization «заканчивается» только в финале, а до этого не работаетDПотому что метрика в
control считается позже, чем в treatmentПравильный ответ. Ранние границы делают строже, чтобы при нескольких
interim analysis суммарно сохранить заданный alpha и контроль Type I error.Разбор
Чем раньше вы пытаетесь остановить тест, тем выше шанс случайного всплеска метрики. Если применять одинаковый порог на каждой неделе, суммарная вероятность false positive станет больше, чем alpha. Поэтому в sequential testing ранние границы требуют более сильного сигнала, а к концу становятся ближе к обычному уровню.
Проверь себя · 1/3разбор после ответа
У вас нет инфраструктуры для
sequential testing, но команда хочет минимизировать риски от peeking. Какой подход самый безопасный и простой?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает `A/B test` и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает и объявляет победу. В чём главный риск такого `peeking`?
- Что лучше всего описывает `stopping rule` в контексте `sequential testing`?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала `fixed horizon`: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого `peeking` на `Type I error` для основной проверки?
- Что такое `alpha spending` в `sequential testing`?
- Стейкхолдеры хотят еженедельные апдейты и возможность остановить тест раньше, если уже «всё ясно». Что лучше сделать до запуска?
- Все вопросы по «Секвенциальное тестирование» →