Вы протестировали 12 сегментов и применили Holm для контроля FWER. Какой вариант репортинга наиболее корректен?
AПишем только сегменты с
p-value < 0.05 и не упоминаем остальные проверкиBПишем, что применили
Holm, значит p-value теперь равен вероятности H0CПишем, что было 12 проверок, использовали
Holm при alpha = 0.05, и значимыми считаем только результаты со скорректированным p-value < 0.05DПишем, что коррекция была, но число проверок не указываем, чтобы не усложнять
Правильный ответ. Корректный отчёт явно фиксирует семейство тестов, метод поправки и правило принятия решений.
Разбор
При множественных проверках важно указать, сколько гипотез тестировали и какой метод использовали (Holm, Bonferroni или Benjamini–Hochberg). Также важно сказать, какой порог применяли и что именно считается значимым после коррекции. Типичная ошибка — показывать только «красивые» сегменты без контекста multiple comparisons, что завышает уверенность в выводах.
Проверь себя · 1/3разбор после ответа
В A/B-тесте вы измеряете 15 метрик и объявляете победу, если хоть одна метрика имеет
p-value < 0.05. Какой риск вы в первую очередь раздуваете?Ещё вопросы по теме «Множественные сравнения»
- Вы сделали множественные сравнения (`multiple comparisons`): 20 независимых проверок при `alpha = 0.05` и нашли одну метрику с `p-value = 0.04`. Что корректнее всего сказать про этот результат?
- Какая пара определений наиболее корректно описывает `FWER` и `FDR` при множественных проверках?
- Вы делаете 10 проверок и хотите контролировать `FWER` на уровне `alpha=0.05`. Какой порог для каждого теста задаёт поправка `Bonferroni`?
- Вы хотите контролировать `FWER`, но `Bonferroni` кажется слишком консервативным. Какое утверждение про `Holm` наиболее верное?
- Вы применяете процедуру `Benjamini–Hochberg` для контроля `FDR` на уровне 0.05 к 5 проверкам с отсортированными `p-value`: 0.004, 0.012, 0.018, 0.07, 0.2. Сколько гипотез будет отклонено?
- Все вопросы по «Множественные сравнения» →