В тесте есть корректная рандомизация, но менеджер каждый день проверяет p-value и останавливает при p-value < alpha. Почему проблема всё равно остаётся?
AРандомизация делает любые промежуточные проверки безопасными по умолчанию, поэтому ежедневный мониторинг
p-value не создаёт никаких рисков для интерпретации результатаBЕдинственная проблема ежедневных проверок в том, что размер контрольной и тестовой групп может оказаться не ровно 50 на 50 в каждый момент времени
CРандомизация не исправляет нарушение правила остановки: подглядывание с правом досрочной остановки повышает вероятность ошибки I рода и долю ложноположительных результатов
DПроблема в том, что
lift нельзя считать на рандомизированных данных, потому что случайное распределение само по себе искажает оценку эффектаПравильный ответ. Рандомизация делает группы сопоставимыми, но не исправляет нарушение правила остановки: досрочная остановка повышает ошибку I рода.
Разбор
Случайное распределение делает группы сопоставимыми и поддерживает причинный вывод. Но если правило остановки зависит от промежуточных результатов, стандартная проверка больше не гарантирует риск ложноположительного результата на уровне alpha. Поэтому при частых проверках нужен либо фиксированный горизонт наблюдения, либо последовательное тестирование с распределением alpha. Варианты про 50/50 и про невозможность считать lift ошибочны: рандомизация не запрещает оценивать эффект, она лишь не защищает от подглядывания.
Проверь себя · 1/2разбор после ответа
Что такое
alpha spending в последовательном тестировании?Ещё вопросы по теме «Секвенциальное тестирование»
- Команда запускает A/B-тест и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает тест и объявляет победу. В чём главный риск такого подсматривания?
- Что лучше всего описывает правило остановки в контексте последовательного тестирования?
- Аналитик смотрит промежуточные результаты каждый день, но команда заранее зафиксировала длительность: тест идёт 14 дней, и решение принимают только по финальному анализу в конце. Что наиболее корректно про влияние такого подсматривания на ошибку первого рода для основной проверки?
- Что такое `alpha spending` в последовательном тестировании?
- Почему в корректном последовательном тестировании порог для ранней остановки обычно более строгий, чем в конце эксперимента?
- Все вопросы по «Секвенциальное тестирование» →