Вы проверяете эффект фичи на 5 сегментах и 2 платформах и планируете в презентации выбрать самые «успешные» результаты. Что разумнее всего считать семейством тестов для контроля `FWER` (вероятности хотя бы одной ошибки I рода)?

Question

Карьерник · Accepted Answer

Правильный ответ: Все 10 проверок, потому что вы будете интерпретировать их совместно при выборе результатов в презентацию. Семейство тестов определяется тем, какие проверки влияют на одно решение, а не тем, какие уже получились значимыми. Если вы планируете выбрать и показать лучшие сегменты и платформы, все эти сравнения участвуют в одном процессе отбора и образуют одно семейство. Тогда логично контролировать `FWER` или `FDR` по всему набору, чтобы учесть множественные сравнения. Брать в семейство только уже значимые проверки нельзя: это ровно тот отбор, против которого и защищает поправка. Зафиксировать «один важный сегмент» постфактум тоже нечестно, если по факту смотрели все.

Разбор

Ещё вопросы по теме «Множественные сравнения»