Вы применили поправку Bonferroni к 6 метрикам, и ни одна не стала значимой, хотя без поправки было 2 метрики с p-value ниже 0.05. Почему это ожидаемо?

AПоправка Bonferroni делает порог значимости мягче, поэтому значимых метрик после её применения должно становиться больше, а не меньше
BПоправка Bonferroni делает порог строже для контроля общей вероятности ошибки, поэтому значимых может стать меньше, включая истинные эффекты
CПоправка Bonferroni меняет знак эффекта на противоположный, поэтому значения p-value после её применения перестают иметь смысл
DЭто означает, что в данных точно есть техническая ошибка, потому что поправки на множественные сравнения не могут менять статус значимости
Правильный ответ. Поправка Bonferroni снижает риск ложных находок, но часто снижает и мощность теста.

Разбор

При поправке Bonferroni вы используете порог alpha/m, поэтому часть эффектов, которые выглядели значимыми без коррекции, перестают проходить новый порог. Это цена за контроль общей вероятности ошибки I рода при множественных проверках. Типичная ошибка — ожидать, что коррекция «подтвердит» результаты, вместо того чтобы понимать компромисс между ложноположительными и ложноотрицательными выводами.

Проверь себя · 1/3разбор после ответа
Вы проверяете эффект фичи на 5 сегментах и 2 платформах и планируете в презентации выбрать самые «успешные» результаты. Что разумнее всего считать семейством тестов для контроля FWER (вероятности хотя бы одной ошибки I рода)?
Тренировать статистику в Telegram

Ещё вопросы по теме «Множественные сравнения»