Вы смотрите 20 метрик и для каждой проверяете гипотезу на уровне значимости 0.05, объявляя успехом любую метрику, где p-value < 0.05. Какой риск возрастает сильнее всего?

AРиск ошибки II рода (пропустить реальный эффект) при таком сценарии становится практически нулевым
BШирина каждого 95% доверительного интервала автоматически уменьшается из-за большого числа сравнений
CВероятность того, что нулевая гипотеза H0 истинна, после серии проверок заметно увеличивается
DОбщий риск ошибки I рода по набору метрик возрастает, и шанс ложноположительной находки становится высоким
Правильный ответ. Множественные проверки увеличивают общий риск ошибки I рода по набору, если не контролировать его на уровне всех гипотез.

Разбор

Даже если каждая отдельная проверка имеет уровень значимости 0.05, при большом числе метрик растёт вероятность хотя бы одного ложноположительного результата по всему набору. Это может привести к ошибочному выводу об успехе на основе случайного шума. Чтобы этого избежать, заранее фиксируют основные и страховочные метрики и при необходимости применяют поправки на множественные сравнения. Риск ошибки II рода тут не уходит в ноль, ширина доверительных интервалов от числа сравнений сама по себе не уменьшается, а p-value ничего не говорит о вероятности истинности H0.

Проверь себя · 1/3разбор после ответа
Какая ситуация лучше всего подходит для выбора z-test вместо t-test в типичном A/B тестировании?
Тренировать A/B в Telegram

Ещё вопросы по теме «Проверка гипотез и доверительные интервалы»