Команда каждый день строит обычный 95% доверительный интервал для разницы метрики и останавливает эксперимент, когда интервал впервые не включает 0. Чем это принципиально отличается от подглядывания по p-value?
AЭто полностью безопасно: доверительный интервал и
Type I error по построению независимы и не страдают от подглядыванияBЭто то же
optional stopping: для частых проверок нужны последовательные методы, например границы через alpha spendingCЭто допустимо только без рандомизации, а с рандомизацией (
A/B) ежедневная остановка по интервалу запрещенаDЭто увеличивает
power теста, поэтому проблема ложных срабатываний исчезает сама без дополнительных корректировокПравильный ответ. Это то же
optional stopping: ежедневная остановка по обычному 95% интервалу раздувает ошибку I рода, если не использовать последовательные границы.Разбор
Если вы проверяете интервал много раз и останавливаетесь, когда он впервые не включает 0, вы делаете несколько попыток найти «значимость». Это раздувает вероятность ошибки I рода точно так же, как подглядывание по p-value. Для частых проверок применяют последовательные методы — например, корректные границы через alpha spending или групповой последовательный дизайн. Иначе доля ложных находок будет существенно выше заявленных 5%.
Проверь себя · 1/2разбор после ответа
В эксперименте вы делали ежедневные проверки. На 3-й день получили
p-value < alpha и остановили тест, но позже выяснилось, что при продолжении до 14 дней результат стал бы незначимым. Какое объяснение наиболее вероятно?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает A/B-тест и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает тест и объявляет победу. В чём главный риск такого подсматривания?
- Что лучше всего описывает правило остановки в контексте последовательного тестирования?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала длительность: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого подсматривания на ошибку первого рода для основной проверки?
- Что такое `alpha spending` в последовательном тестировании?
- Почему в корректном последовательном тестировании порог для ранней остановки обычно более строгий, чем в конце эксперимента?
- Все вопросы по «Секвенциальное тестирование» →