В тесте есть корректная рандомизация, но менеджер каждый день проверяет p-value и останавливает при p-value < alpha. Почему проблема всё равно остаётся?

AРандомизация делает любые промежуточные проверки безопасными по умолчанию, поэтому ежедневный мониторинг p-value не создаёт никаких рисков для интерпретации результата
BЕдинственная проблема ежедневных проверок в том, что размер контрольной и тестовой групп может оказаться не ровно 50 на 50 в каждый момент времени
CРандомизация не исправляет нарушение правила остановки: подглядывание с правом досрочной остановки повышает вероятность ошибки I рода и долю ложноположительных результатов
DПроблема в том, что lift нельзя считать на рандомизированных данных, потому что случайное распределение само по себе искажает оценку эффекта
Правильный ответ. Рандомизация делает группы сопоставимыми, но не исправляет нарушение правила остановки: досрочная остановка повышает ошибку I рода.

Разбор

Случайное распределение делает группы сопоставимыми и поддерживает причинный вывод. Но если правило остановки зависит от промежуточных результатов, стандартная проверка больше не гарантирует риск ложноположительного результата на уровне alpha. Поэтому при частых проверках нужен либо фиксированный горизонт наблюдения, либо последовательное тестирование с распределением alpha. Варианты про 50/50 и про невозможность считать lift ошибочны: рандомизация не запрещает оценивать эффект, она лишь не защищает от подглядывания.

Проверь себя · 1/2разбор после ответа
Что такое alpha spending в последовательном тестировании?
Тренировать A/B в Telegram

Ещё вопросы по теме «Секвенциальное тестирование»