Q: Команда запускает A/B-тест и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает тест и объявляет победу. В чём главный риск такого подсматривания?

Подсматривание с остановкой по `p-value` без коррекции повышает риск ложноположительного результата. Обычная интерпретация `p-value` при уровне `alpha` предполагает заранее зафиксированный план анализа. Если многократно проверять результат и останавливаться при первом `p-value < alpha`, фактически делается несколько попыток «поймать» значимость. Это увеличивает ошибку I рода, поэтому нужен фиксированный горизонт или последовательный тест с распределением `alpha`. Мощность сама по себе тут не падает, рандомизация остаётся валидной, а знак эффекта от подсматривания не переворачивается.

Question 1

У вас нет инфраструктуры для последовательного тестирования, но команда хочет минимизировать риски от подглядывания в промежуточные результаты. Какой подход самый безопасный и простой?

Accepted Answer

Самый простой способ избежать подглядывания — фиксированная длительность теста и один финальный анализ; ежедневно можно мониторить только страховочные метрики и sanity-checkи. Вы заранее задаёте длительность теста и критерий решения, а затем оцениваете результат один раз в конце. Это сохраняет стандартную интерпретацию `p-value` и контроль ошибки I рода. Если нужен ежедневный контроль качества, можно мониторить страховочные метрики, но не менять решение по основной метрике до финала.

Question 2

Что лучше всего описывает правило остановки в контексте последовательного тестирования?

Accepted Answer

Правильное правило остановки заранее определяет условия завершения теста и сохраняет корректность вывода по `H0`. Если команда планирует промежуточные просмотры, нужно до запуска зафиксировать частоту промежуточного анализа и условия остановки. Это может быть остановка по границам для `p-value` или по порогу эффекта, но правила должны быть заранее. Так снижается риск подглядывания и переобучения на шуме, а распределение уровня значимости помогает контролировать ошибку I рода.

Question 3

Команда хочет ежедневно смотреть результаты, чтобы понимать, что «тест в порядке», но решения по эффекту принимать только по финалу. Как лучше организовать процесс, чтобы не скатиться в подглядывание с досрочной остановкой?

Accepted Answer

Разделяйте мониторинг и решение: фиксированный горизонт и правило остановки для основной метрики, а ежедневно — только защитные метрики и проверки качества данных. Ежедневные дашборды полезны для контроля инцидентов и качества данных, но не должны менять решение по эффекту. Если вы начинаете останавливать тест по «красивому дню», вы получаете досрочную остановку и рост доли ложноположительных. Поэтому фиксируйте горизонт наблюдения или используйте последовательное тестирование с распределением `alpha`, а промежуточные просмотры делайте только в рамках заранее описанных правил. Смена целевой метрики и порога `alpha` на ходу — это явное манипулирование процедурой проверки гипотез.

Question 4

Какое утверждение лучше всего описывает практический плюс последовательного тестирования (sequential testing) по сравнению с фиксированным горизонтом (fixed horizon)?

Accepted Answer

Плюс последовательного тестирования: можно остановиться раньше при сильном сигнале и при этом контролировать ошибку I рода через `alpha spending`. При фиксированном горизонте вы обязаны дождаться конца, даже если эффект уже выглядит очевидным. В последовательном тестировании вы планируете промежуточные анализы и можете остановиться раньше по границе, заданной через `alpha spending`. Это экономит время и трафик, но требует дисциплины в правилах остановки и корректной аналитики, иначе ранняя остановка раздует долю ложноположительных результатов.

Question 5

Команда запускает A/B-тест и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает тест и объявляет победу. В чём главный риск такого подсматривания?

Accepted Answer

Подсматривание с остановкой по `p-value` без коррекции повышает риск ложноположительного результата. Обычная интерпретация `p-value` при уровне `alpha` предполагает заранее зафиксированный план анализа. Если многократно проверять результат и останавливаться при первом `p-value < alpha`, фактически делается несколько попыток «поймать» значимость. Это увеличивает ошибку I рода, поэтому нужен фиксированный горизонт или последовательный тест с распределением `alpha`. Мощность сама по себе тут не падает, рандомизация остаётся валидной, а знак эффекта от подсматривания не переворачивается.

Вопросы по теме «Секвенциальное тестирование»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты