В наборе из 8 проверок одна метрика имеет сырой p-value=0.03, но после коррекции Holm её скорректированный p-value=0.12. Как корректнее сформулировать вывод?
AСчитать результат значимым, потому что 0.03 меньше 0.05
BСчитать результат значимым, потому что
Holm всегда повышает мощностьCНе заявлять значимость при контроле
FWER с Holm; можно упомянуть как сигнал, но честно указать, что после коррекции незначимоDЗаменить метод на
Benjamini–Hochberg после просмотра результата и объявить значимостьПравильный ответ. Если вы контролируете
FWER с Holm, решение принимают по скорректированным p-value.Разбор
Сырой p-value не учитывает, что вы делали несколько проверок, а Holm как раз корректирует это для контроля FWER. Если скорректированный p-value больше порога, то с точки зрения заранее выбранного правила значимость не подтверждена. Типичная ошибка — показывать только сырой p-value и умалчивать про множественность, что делает репортинг некорректным.
Проверь себя · 1/3разбор после ответа
У вас два сценария: (1) критичное решение по безопасности, (2) поиск идей среди 50 метрик для следующего спринта. Какое сочетание контроля ошибок чаще всего разумно?
Ещё вопросы по теме «Множественные сравнения»
- Вы сделали множественные сравнения (`multiple comparisons`): 20 независимых проверок при `alpha = 0.05` и нашли одну метрику с `p-value = 0.04`. Что корректнее всего сказать про этот результат?
- Какая пара определений наиболее корректно описывает `FWER` и `FDR` при множественных проверках?
- Вы делаете 10 проверок и хотите контролировать `FWER` на уровне `alpha=0.05`. Какой порог для каждого теста задаёт поправка `Bonferroni`?
- Вы хотите контролировать `FWER`, но `Bonferroni` кажется слишком консервативным. Какое утверждение про `Holm` наиболее верное?
- Вы применяете процедуру `Benjamini–Hochberg` для контроля `FDR` на уровне 0.05 к 5 проверкам с отсортированными `p-value`: 0.004, 0.012, 0.018, 0.07, 0.2. Сколько гипотез будет отклонено?
- Все вопросы по «Множественные сравнения» →