Вы смотрите 20 метрик и для каждой проверяете гипотезу на уровне значимости 0.05, объявляя успехом любую метрику, где p-value < 0.05. Какой риск возрастает сильнее всего?
AРиск ошибки II рода (пропустить реальный эффект) при таком сценарии становится практически нулевым
BШирина каждого 95% доверительного интервала автоматически уменьшается из-за большого числа сравнений
CВероятность того, что нулевая гипотеза
H0 истинна, после серии проверок заметно увеличиваетсяDОбщий риск ошибки I рода по набору метрик возрастает, и шанс ложноположительной находки становится высоким
Правильный ответ. Множественные проверки увеличивают общий риск ошибки I рода по набору, если не контролировать его на уровне всех гипотез.
Разбор
Даже если каждая отдельная проверка имеет уровень значимости 0.05, при большом числе метрик растёт вероятность хотя бы одного ложноположительного результата по всему набору. Это может привести к ошибочному выводу об успехе на основе случайного шума. Чтобы этого избежать, заранее фиксируют основные и страховочные метрики и при необходимости применяют поправки на множественные сравнения. Риск ошибки II рода тут не уходит в ноль, ширина доверительных интервалов от числа сравнений сама по себе не уменьшается, а p-value ничего не говорит о вероятности истинности H0.
Проверь себя · 1/3разбор после ответа
Какая ситуация лучше всего подходит для выбора
z-test вместо t-test в типичном A/B тестировании?Ещё вопросы по теме «Проверка гипотез и доверительные интервалы»
- В A/B тесте для конверсии вы получили `p-value` = 0.03 при проверке `H0` об отсутствии разницы между группами. Какая интерпретация корректна?
- Для разницы конверсий вы построили 95% доверительный интервал: от -0.2% до +1.4%. Что можно сказать о статистической значимости при уровне значимости 0.05 и двусторонней проверке?
- Вы сравниваете долю конверсии (успех/неуспех) в группах A и B на больших выборках. Какой тест чаще всего выбирают как базовый для сравнения долей?
- Команда зафиксировала уровень значимости `alpha` 0.05. Что это в первую очередь контролирует в терминах ошибок?
- В A/B-тесте при огромной выборке вы получили `p-value < 0.001`, но рост конверсии составил всего +0.02% при минимально полезном пороге +0.5%. Какое действие наиболее разумно?
- Все вопросы по «Проверка гипотез и доверительные интервалы» →