Команда запустила тест с одним контролем и шестью вариантами, посмотрела результаты и решила протестировать только лучший вариант против контроля на тех же данных, используя уровень значимости 0.05. В чём главная проблема такого подхода?
AДвойное использование данных и скрытая множественность сравнений: выбор лучшего по этим же данным завышает риск ложноположительных
BПроблем нет: достаточно зафиксировать
alpha = 0.05 и сравнить лучший вариант с контролем на тех же данных без поправокCГлавная проблема в необходимости поднять уровень значимости с 0.05 до 0.1 из-за падения мощности при шести сравниваемых вариантах
DПоправка
Benjamini-Hochberg в таком дизайне неприменима, и остаётся только последовательный анализ с фиксацией данныхПравильный ответ. Если сначала выбрать победителя по данным, а затем проверить его теми же данными, то из-за отбора растёт доля ложноположительных результатов.
Разбор
Когда вы выбираете лучший вариант из нескольких, вы уже используете множественные сравнения, даже если формально считаете только одно p-value. Повторная проверка на тех же данных не «обнуляет» этот выбор и делает выводы слишком оптимистичными. Корректнее заранее фиксировать план сравнений и поправку или подтверждать победителя на независимых данных. Иначе «победа» может быть просто удачной флуктуацией.
Проверь себя · 1/3разбор после ответа
У вас 4 заранее запланированных сравнения, и нужно контролировать суммарную ошибку первого рода (FWER), но хочется быть менее консервативным, чем поправка
Bonferroni. Что чаще выбирают?Ещё вопросы по теме «Множественное тестирование»
- Вы запускаете `A/B/n`-эксперимент: контроль и 3 варианта интерфейса. Что принципиально меняется по сравнению с `A/B` в части риска ложноположительных результатов, если проверять каждое сравнение на `alpha` 0.05 без коррекции?
- В эксперименте `A/B/n` у вас контроль A и варианты B и C, и вы готовы запустить любой вариант, который статистически лучше контроля по одной основной метрике. Какие проверки логично считать одной семьёй для поправки на множественные сравнения?
- Команда сравнивает 8 вариантов с контролем и для каждого теста использует порог `alpha = 0.05` без коррекции. Что происходит с вероятностью получить хотя бы одно ложное срабатывание среди всех сравнений?
- Что означает контроль `FWER` (вероятности хотя бы одной ошибки I рода) в задаче с множественными сравнениями?
- Какое утверждение верно про коррекцию `Bonferroni` при множественных сравнениях?
- Все вопросы по «Множественное тестирование» →