После эксперимента вы посмотрели 20 сегментов и выбрали один с p-value=0.03, чтобы сказать, что фича работает в этом сегменте. Что корректнее сделать?
AСмело заявить эффект: раз
p-value < 0.05, то сегмент подтверждёнBНе смотреть сегменты вообще, потому что это всегда запрещено
CСчитать сегменты автоматически значимыми, если общий эффект незначим
DПризнать
multiple comparisons: применить поправку или обозначить сегментный результат как исследовательский и подтвердить отдельным тестомПравильный ответ. Выбор 'лучшего' сегмента после просмотра многих — классический риск из-за
multiple comparisons.Разбор
Если вы просмотрели 20 сегментов и выбрали один по минимальному p-value, шанс случайной находки сильно выше, чем для одного заранее заданного сегмента. Корректный подход — заранее фиксировать ключевые сегменты или применять поправку на множественность, например контроль FWER или FDR. Частая практика — трактовать такие результаты как гипотезогенерацию и подтверждать на новом запуске, чтобы избежать переобучения на шуме.
Проверь себя · 1/3разбор после ответа
Что означает контролировать
FDR на уровне 0.1 в наборе гипотез?Ещё вопросы по теме «Множественные сравнения»
- Вы сделали множественные сравнения (`multiple comparisons`): 20 независимых проверок при `alpha = 0.05` и нашли одну метрику с `p-value = 0.04`. Что корректнее всего сказать про этот результат?
- Какая пара определений наиболее корректно описывает `FWER` и `FDR` при множественных проверках?
- Вы делаете 10 проверок и хотите контролировать `FWER` на уровне `alpha=0.05`. Какой порог для каждого теста задаёт поправка `Bonferroni`?
- Вы хотите контролировать `FWER`, но `Bonferroni` кажется слишком консервативным. Какое утверждение про `Holm` наиболее верное?
- Вы применяете процедуру `Benjamini–Hochberg` для контроля `FDR` на уровне 0.05 к 5 проверкам с отсортированными `p-value`: 0.004, 0.012, 0.018, 0.07, 0.2. Сколько гипотез будет отклонено?
- Все вопросы по «Множественные сравнения» →