В эксперименте у вас 1 основная метрика и 3 guardrail-метрики, а также 10 сегментных разрезов. Какой подход к принятию решения наиболее корректен с точки зрения множественных проверок?
AОбъявлять успех, если любая из метрик где-то значима при
p-value < 0.05BВыбирать сегмент с лучшим
p-value и считать его основной популяцией задним числомCЗаранее описать
decision policy: основной эффект проверяем отдельно, guardrail используем как ограничения, сегменты помечаем как исследовательские или корректируем их как multiple comparisons, и всё это явно отражаем в отчётеDПрименить
Bonferroni только к тем метрикам, которые оказались незначимыми, чтобы 'подтянуть' результатПравильный ответ. Нужна заранее заданная
decision policy: что первично, что ограничения, и как трактуются сегменты при multiple comparisons.Разбор
Когда метрик и разрезов много, без явного правила легко случайно найти 'победу' и нарушить корректность вывода. Хорошая практика — заранее зафиксировать, по чему принимается решение, как обрабатываются guardrail, и является ли сегментный анализ подтверждающим или исследовательским. Если сегменты используются для отбора, это multiple comparisons, и нужно либо корректировать, либо подтверждать в отдельном запуске. Типичная ошибка — смешать все проверки в одно правило 'значимо где угодно'.
Проверь себя · 1/3разбор после ответа
Вы хотите контролировать
FWER, но Bonferroni кажется слишком консервативным. Какое утверждение про Holm наиболее верное?Ещё вопросы по теме «Множественные сравнения»
- Вы сделали множественные сравнения (`multiple comparisons`): 20 независимых проверок при `alpha = 0.05` и нашли одну метрику с `p-value = 0.04`. Что корректнее всего сказать про этот результат?
- Какая пара определений наиболее корректно описывает `FWER` и `FDR` при множественных проверках?
- Вы делаете 10 проверок и хотите контролировать `FWER` на уровне `alpha=0.05`. Какой порог для каждого теста задаёт поправка `Bonferroni`?
- Вы хотите контролировать `FWER`, но `Bonferroni` кажется слишком консервативным. Какое утверждение про `Holm` наиболее верное?
- Вы применяете процедуру `Benjamini–Hochberg` для контроля `FDR` на уровне 0.05 к 5 проверкам с отсортированными `p-value`: 0.004, 0.012, 0.018, 0.07, 0.2. Сколько гипотез будет отклонено?
- Все вопросы по «Множественные сравнения» →