В эксперименте у вас 1 основная метрика и 3 guardrail-метрики, а также 10 сегментных разрезов. Какой подход к принятию решения наиболее корректен с точки зрения множественных проверок?

AОбъявлять успех, если любая из метрик где-то значима при p-value < 0.05
BВыбирать сегмент с лучшим p-value и считать его основной популяцией задним числом
CЗаранее описать decision policy: основной эффект проверяем отдельно, guardrail используем как ограничения, сегменты помечаем как исследовательские или корректируем их как multiple comparisons, и всё это явно отражаем в отчёте
DПрименить Bonferroni только к тем метрикам, которые оказались незначимыми, чтобы 'подтянуть' результат
Правильный ответ. Нужна заранее заданная decision policy: что первично, что ограничения, и как трактуются сегменты при multiple comparisons.

Разбор

Когда метрик и разрезов много, без явного правила легко случайно найти 'победу' и нарушить корректность вывода. Хорошая практика — заранее зафиксировать, по чему принимается решение, как обрабатываются guardrail, и является ли сегментный анализ подтверждающим или исследовательским. Если сегменты используются для отбора, это multiple comparisons, и нужно либо корректировать, либо подтверждать в отдельном запуске. Типичная ошибка — смешать все проверки в одно правило 'значимо где угодно'.

Проверь себя · 1/3разбор после ответа
Вы хотите контролировать FWER, но Bonferroni кажется слишком консервативным. Какое утверждение про Holm наиболее верное?
Тренировать статистику в Telegram

Ещё вопросы по теме «Множественные сравнения»