Почему обычный p-value становится некорректным, если вы остановили эксперимент «как только p-value < alpha»?
AПотому что
randomization перестаёт работать после первой неделиBПотому что
p-value нельзя считать, пока тест не получил 100% трафикаCПотому что
p-value предполагает фиксированный план, а при optional stopping распределение меняется и растёт Type I errorDПотому что
p-value равен lift, а lift меняется каждый деньПравильный ответ. Обычный
p-value рассчитан под фиксированный план; при optional stopping он становится слишком оптимистичным и раздувает Type I error.Разбор
Классическая проверка устроена так, что при H0 вероятность получить p-value < alpha равна alpha, если проверка делается один раз по плану. Если же вы проверяете много раз и останавливаетесь при первом «успехе», шанс случайно получить значимость растёт. Поэтому нужны методы sequential testing или отказ от остановки по промежуточным p-value.
Проверь себя · 1/3разбор после ответа
Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала
fixed horizon: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого peeking на Type I error для основной проверки?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает `A/B test` и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает и объявляет победу. В чём главный риск такого `peeking`?
- Что лучше всего описывает `stopping rule` в контексте `sequential testing`?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала `fixed horizon`: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого `peeking` на `Type I error` для основной проверки?
- Что такое `alpha spending` в `sequential testing`?
- Почему в корректном `sequential testing` порог для ранней остановки обычно более строгий, чем в конце эксперимента?
- Все вопросы по «Секвенциальное тестирование» →