В эксперименте вы делали ежедневные проверки. На 3-й день получили p-value < alpha и остановили тест, но позже выяснилось, что при продолжении до 14 дней результат стал бы незначимым. Какое объяснение наиболее вероятно?
AСработала случайная флуктуация, а
peeking с optional stopping «поймал» шум как эффектB
Randomization сломалась ровно на 4-й день, поэтому результат поменялсяCКоманда перепутала
control и treatment, поэтому значимость пропалаD
Alpha spending автоматически уменьшило effect size задним числомПравильный ответ. Вероятнее всего это случайная флуктуация:
peeking и ранняя остановка «поймали» шум, который исчез при бы продолжении.Разбор
В начале теста дисперсия высока, и метрика может случайно отклониться. Если остановить эксперимент в момент такого отклонения, вы фиксируете шум как effect size. При продолжении теста результат обычно усредняется и становится более стабильным. Поэтому важно использовать fixed horizon или корректные границы в sequential testing.
Проверь себя · 1/3разбор после ответа
У вас нет инфраструктуры для
sequential testing, но команда хочет минимизировать риски от peeking. Какой подход самый безопасный и простой?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает `A/B test` и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает и объявляет победу. В чём главный риск такого `peeking`?
- Что лучше всего описывает `stopping rule` в контексте `sequential testing`?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала `fixed horizon`: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого `peeking` на `Type I error` для основной проверки?
- Что такое `alpha spending` в `sequential testing`?
- Почему в корректном `sequential testing` порог для ранней остановки обычно более строгий, чем в конце эксперимента?
- Все вопросы по «Секвенциальное тестирование» →