После эксперимента вы посмотрели 20 сегментов и выбрали один с p-value=0.03, чтобы сказать, что фича работает в этом сегменте. Что корректнее сделать?

AСмело заявить эффект: раз p-value < 0.05, то сегмент подтверждён
BНе смотреть сегменты вообще, потому что это всегда запрещено
CСчитать сегменты автоматически значимыми, если общий эффект незначим
DПризнать multiple comparisons: применить поправку или обозначить сегментный результат как исследовательский и подтвердить отдельным тестом
Правильный ответ. Выбор 'лучшего' сегмента после просмотра многих — классический риск из-за multiple comparisons.

Разбор

Если вы просмотрели 20 сегментов и выбрали один по минимальному p-value, шанс случайной находки сильно выше, чем для одного заранее заданного сегмента. Корректный подход — заранее фиксировать ключевые сегменты или применять поправку на множественность, например контроль FWER или FDR. Частая практика — трактовать такие результаты как гипотезогенерацию и подтверждать на новом запуске, чтобы избежать переобучения на шуме.

Проверь себя · 1/3разбор после ответа
Что означает контролировать FDR на уровне 0.1 в наборе гипотез?
Тренировать статистику в Telegram

Ещё вопросы по теме «Множественные сравнения»