Команда запустила тест с одним контролем и шестью вариантами, посмотрела результаты и решила протестировать только лучший вариант против контроля на тех же данных, используя уровень значимости 0.05. В чём главная проблема такого подхода?

AДвойное использование данных и скрытая множественность сравнений: выбор лучшего по этим же данным завышает риск ложноположительных
BПроблем нет: достаточно зафиксировать alpha = 0.05 и сравнить лучший вариант с контролем на тех же данных без поправок
CГлавная проблема в необходимости поднять уровень значимости с 0.05 до 0.1 из-за падения мощности при шести сравниваемых вариантах
DПоправка Benjamini-Hochberg в таком дизайне неприменима, и остаётся только последовательный анализ с фиксацией данных
Правильный ответ. Если сначала выбрать победителя по данным, а затем проверить его теми же данными, то из-за отбора растёт доля ложноположительных результатов.

Разбор

Когда вы выбираете лучший вариант из нескольких, вы уже используете множественные сравнения, даже если формально считаете только одно p-value. Повторная проверка на тех же данных не «обнуляет» этот выбор и делает выводы слишком оптимистичными. Корректнее заранее фиксировать план сравнений и поправку или подтверждать победителя на независимых данных. Иначе «победа» может быть просто удачной флуктуацией.

Проверь себя · 1/3разбор после ответа
У вас 4 заранее запланированных сравнения, и нужно контролировать суммарную ошибку первого рода (FWER), но хочется быть менее консервативным, чем поправка Bonferroni. Что чаще выбирают?
Тренировать A/B в Telegram

Ещё вопросы по теме «Множественное тестирование»