Команда хочет ежедневно смотреть результаты, чтобы понимать, что «тест в порядке», но решения по эффекту принимать только по финалу. Как лучше организовать процесс, чтобы не скатиться в peeking с optional stopping?

AКаждый день менять целевую метрику на ту, где lift выглядит лучше всего
BКаждый день пересчитывать alpha и выбирать порог «по ситуации»
CОстанавливать тест в тот день, когда lift достиг локального максимума
DЗаранее зафиксировать fixed horizon и правила решения по основной метрике, а ежедневный мониторинг ограничить guardrail (защитная метрика) и sanity-checkами без раннего объявления победы по p-value.
Правильный ответ. Разделяйте мониторинг и решение: fixed horizon/stopping rule для основной метрики, а ежедневно — только guardrail (защитная метрика) и проверки качества данных.

Разбор

Ежедневные дашборды полезны для контроля инцидентов и качества данных, но не должны менять решение по эффекту. Если вы начинаете останавливать тест по «красивому дню», вы получаете optional stopping и рост false positive. Поэтому фиксируйте fixed horizon или используйте sequential testing с alpha spending, а промежуточные просмотры делайте только в рамках заранее описанных правил.

Проверь себя · 1/3разбор после ответа
Почему в корректном sequential testing порог для ранней остановки обычно более строгий, чем в конце эксперимента?
Тренировать A/B в Telegram

Ещё вопросы по теме «Секвенциальное тестирование»