У вас нет инфраструктуры для последовательного тестирования, но команда хочет минимизировать риски от подглядывания в промежуточные результаты. Какой подход самый безопасный и простой?
AЗаранее зафиксировать длительность теста и делать один финальный анализ, не останавливая тест по промежуточным
p-valueBПоставить
alpha = 0.2, чтобы быстрее увидеть значимость и не подглядывать так часто в промежуточные результаты p-valueCСмотреть метрику каждые 2 часа и останавливать тест при первом улучшении
lift сверх 1% по основной метрикеDЗапускать тест только на выходных и принимать решение по первому статистически значимому
p-value за сменуПравильный ответ. Самый простой способ избежать подглядывания — фиксированная длительность теста и один финальный анализ; ежедневно можно мониторить только страховочные метрики и sanity-checkи.
Разбор
Вы заранее задаёте длительность теста и критерий решения, а затем оцениваете результат один раз в конце. Это сохраняет стандартную интерпретацию p-value и контроль ошибки I рода. Если нужен ежедневный контроль качества, можно мониторить страховочные метрики, но не менять решение по основной метрике до финала.
Проверь себя · 1/2разбор после ответа
В эксперименте вы делали ежедневные проверки. На 3-й день получили
p-value < alpha и остановили тест, но позже выяснилось, что при продолжении до 14 дней результат стал бы незначимым. Какое объяснение наиболее вероятно?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает A/B-тест и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает тест и объявляет победу. В чём главный риск такого подсматривания?
- Что лучше всего описывает правило остановки в контексте последовательного тестирования?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала длительность: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого подсматривания на ошибку первого рода для основной проверки?
- Что такое `alpha spending` в последовательном тестировании?
- Почему в корректном последовательном тестировании порог для ранней остановки обычно более строгий, чем в конце эксперимента?
- Все вопросы по «Секвенциальное тестирование» →