Вы проверяете эффект фичи на 5 сегментах и 2 платформах и планируете в презентации выбрать самые 'успешные' результаты. Что разумнее всего считать семейством тестов для контроля FWER?

AВсе 10 проверок, потому что вы будете интерпретировать их совместно в одном решении
BТолько те проверки, где p-value уже меньше 0.05
CТолько один сегмент, который вы считаете самым важным, даже если выберете другой по результату
DТолько проверки на одной платформе, потому что платформы независимы по смыслу
Правильный ответ. Семейство тестов определяется тем, какие проверки влияют на одно решение, а не тем, какие уже получились значимыми.

Разбор

Если вы планируете выбрать и показать лучшие сегменты и платформы, то все эти сравнения участвуют в одном процессе отбора и образуют одно семейство. Тогда логично контролировать FWER или FDR по всему набору, чтобы учесть multiple comparisons. Типичная ошибка — сначала посмотреть все результаты, а потом объявить, что 'мы тестировали только вот эти два', игнорируя остальные попытки.

Проверь себя · 1/3разбор после ответа
Вы применяете процедуру Benjamini–Hochberg для контроля FDR на уровне 0.05 к 5 проверкам с отсортированными p-value: 0.004, 0.012, 0.018, 0.07, 0.2. Сколько гипотез будет отклонено?
Тренировать статистику в Telegram

Ещё вопросы по теме «Множественные сравнения»