Команда хочет ежедневно смотреть результаты, чтобы понимать, что «тест в порядке», но решения по эффекту принимать только по финалу. Как лучше организовать процесс, чтобы не скатиться в peeking с optional stopping?
AКаждый день менять целевую метрику на ту, где
lift выглядит лучше всегоBКаждый день пересчитывать
alpha и выбирать порог «по ситуации»CОстанавливать тест в тот день, когда
lift достиг локального максимумаDЗаранее зафиксировать
fixed horizon и правила решения по основной метрике, а ежедневный мониторинг ограничить guardrail (защитная метрика) и sanity-checkами без раннего объявления победы по p-value.Правильный ответ. Разделяйте мониторинг и решение:
fixed horizon/stopping rule для основной метрики, а ежедневно — только guardrail (защитная метрика) и проверки качества данных.Разбор
Ежедневные дашборды полезны для контроля инцидентов и качества данных, но не должны менять решение по эффекту. Если вы начинаете останавливать тест по «красивому дню», вы получаете optional stopping и рост false positive. Поэтому фиксируйте fixed horizon или используйте sequential testing с alpha spending, а промежуточные просмотры делайте только в рамках заранее описанных правил.
Проверь себя · 1/3разбор после ответа
Почему в корректном
sequential testing порог для ранней остановки обычно более строгий, чем в конце эксперимента?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает `A/B test` и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает и объявляет победу. В чём главный риск такого `peeking`?
- Что лучше всего описывает `stopping rule` в контексте `sequential testing`?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала `fixed horizon`: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого `peeking` на `Type I error` для основной проверки?
- Что такое `alpha spending` в `sequential testing`?
- Почему в корректном `sequential testing` порог для ранней остановки обычно более строгий, чем в конце эксперимента?
- Все вопросы по «Секвенциальное тестирование» →