Почему стратегия «остановили, как только стало значимо» часто приводит к завышенному размеру эффекта и наблюдаемому приросту?

Question

Карьерник · Accepted Answer

Правильный ответ: Потому что при многократных подглядываниях вы чаще останавливаетесь на шумовом всплеске, и оценка эффекта систематически завышается. При многократных подглядываниях вы чаще фиксируете шумовой пик, поэтому оценка размера эффекта склонна завышаться. Если эксперимент останавливают в момент, когда метрика случайно оказалась выше обычного, именно это значение попадает в отчёт. При продолжении теста эффект часто «усредняется» и становится меньше. Поэтому без корректных процедур последовательного тестирования ранняя остановка может создать иллюзию большого прироста и привести к неверным решениям.

Почему стратегия «остановили, как только стало значимо» часто приводит к завышенному размеру эффекта и наблюдаемому приросту?

Разбор

Ещё вопросы по теме «Секвенциальное тестирование»