В A/B тесте команда мониторит 12 метрик и сообщает только те, где p-value < 0.05, без коррекции. Какой риск это создаёт?

AРиска нет, потому что метрики измеряются на одних и тех же пользователях.
BРиск только в том, что Holm станет слишком строгим.
CРиск в том, что увеличится вероятность пропустить эффект, а не получить false positives.
DРиск multiple comparisons: среди множества метрик легче случайно найти значимые и получить false positives, если не зафиксировать первичную метрику или не корректировать.
Правильный ответ. Много метрик без коррекции увеличивает шанс случайно получить значимый результат и получить false positives из-за multiple comparisons.

Разбор

Если вы смотрите много метрик и выбираете только «красивые» результаты, вы по сути проводите множественные проверки. Даже без реального эффекта какая-то метрика может случайно стать значимой. Обычно это решают через заранее определённую первичную метрику и/или корректировки на множественность. Для вторичных метрик выводы часто формулируют осторожнее или подтверждают отдельно.

Проверь себя · 1/3разбор после ответа
Какое утверждение верно про коррекцию Bonferroni при multiple comparisons?
Тренировать A/B в Telegram

Ещё вопросы по теме «Множественное тестирование»