Команда запустила тест с одним контролем и шестью вариантами, посмотрела результаты и решила протестировать только лучший вариант против контроля на тех же данных, используя уровень значимости 0.05. В чём главная проблема такого подхода?

Question

Карьерник · Accepted Answer

Правильный ответ: Двойное использование данных и скрытая множественность сравнений: выбор лучшего по этим же данным завышает риск ложноположительных. Если сначала выбрать победителя по данным, а затем проверить его теми же данными, то из-за отбора растёт доля ложноположительных результатов. Когда вы выбираете лучший вариант из нескольких, вы уже используете множественные сравнения, даже если формально считаете только одно `p-value`. Повторная проверка на тех же данных не «обнуляет» этот выбор и делает выводы слишком оптимистичными. Корректнее заранее фиксировать план сравнений и поправку или подтверждать победителя на независимых данных. Иначе «победа» может быть просто удачной флуктуацией.

Разбор

Ещё вопросы по теме «Множественное тестирование»