У вас два сценария: (1) критичное решение по безопасности, (2) поиск идей среди 50 метрик для следующего спринта. Какое сочетание контроля ошибок чаще всего разумно?
AВ обоих случаях использовать только
FDR, потому что он всегда лучшеBДля безопасности контролировать
FWER, а для скрининга идей — FDRCВ обоих случаях не делать поправок, потому что
p-value уже всё учитываетDДля безопасности использовать
Benjamini–Hochberg, а для идей — BonferroniПравильный ответ.
FWER обычно выбирают для высоких ставок, а FDR — для исследовательского скрининга.Разбор
При безопасности важно минимизировать риск любой ложной находки, поэтому контроль FWER подходит лучше. При скрининге большого числа гипотез часто важнее иметь больше мощности и контролировать долю ложных находок среди выбранных, поэтому используют FDR. Типичная ошибка — применять один и тот же уровень строгости к очень разным по цене ошибки задачам.
Проверь себя · 1/3разбор после ответа
Вы проверяете эффект фичи на 5 сегментах и 2 платформах и планируете в презентации выбрать самые 'успешные' результаты. Что разумнее всего считать семейством тестов для контроля
FWER?Ещё вопросы по теме «Множественные сравнения»
- Вы сделали множественные сравнения (`multiple comparisons`): 20 независимых проверок при `alpha = 0.05` и нашли одну метрику с `p-value = 0.04`. Что корректнее всего сказать про этот результат?
- Какая пара определений наиболее корректно описывает `FWER` и `FDR` при множественных проверках?
- Вы делаете 10 проверок и хотите контролировать `FWER` на уровне `alpha=0.05`. Какой порог для каждого теста задаёт поправка `Bonferroni`?
- Вы хотите контролировать `FWER`, но `Bonferroni` кажется слишком консервативным. Какое утверждение про `Holm` наиболее верное?
- Вы применяете процедуру `Benjamini–Hochberg` для контроля `FDR` на уровне 0.05 к 5 проверкам с отсортированными `p-value`: 0.004, 0.012, 0.018, 0.07, 0.2. Сколько гипотез будет отклонено?
- Все вопросы по «Множественные сравнения» →