Вы смотрите 20 метрик и для каждой делаете проверку на уровне alpha 0.05, а затем объявляете успехом любую метрику, где p-value < 0.05. Какой риск возрастает сильнее всего?

AРиск Type II error (пропустить эффект) становится нулевым.
BШирина каждого 95% confidence interval автоматически станет меньше.
CВероятность того, что H0 истинна, увеличится.
DРиск Type I error на уровне набора метрик возрастает, и вы чаще получите ложноположительную находку.
Правильный ответ. Множественные проверки увеличивают общий риск Type I error, если не контролировать его на уровне набора гипотез.

Разбор

Даже если каждая проверка имеет alpha 0.05, при большом числе метрик растёт вероятность хотя бы одного ложноположительного результата. Это может привести к выводу об успехе на основе случайного шума. Практика — заранее фиксировать основные метрики и, при необходимости, применять подходы контроля множественных проверок.

Проверь себя · 1/3разбор после ответа
Для uplift выручки на пользователя 95% confidence interval получился очень широким: от -20% до +25%. Какое объяснение наиболее вероятно?
Тренировать A/B в Telegram

Ещё вопросы по теме «Проверка гипотез и доверительные интервалы»