Вы запускаете A/B/n-эксперимент: контроль и 3 варианта интерфейса. Что принципиально меняется по сравнению с A/B в части риска false positives, если проверять каждое сравнение на alpha 0.05 без коррекции?

AВозникает проблема multiple comparisons: общий шанс получить хотя бы один false positives растёт, поэтому нужен план сравнения и коррекция.
BНичего: можно тестировать каждую пару на том же alpha и трактовать результаты так же, как в A/B.
CРиск false positives снижается, потому что трафик делится на большее число вариантов.
DНужно сравнивать только варианты между собой, а контроль не использовать.
Правильный ответ. В A/B/n число проверок обычно больше, поэтому без коррекции растёт вероятность false positives из-за multiple comparisons.

Разбор

В A/B часто проверяют одну основную гипотезу, а в A/B/n появляется несколько сравнений, например каждый вариант против контроля. Если каждое сравнение делать на одном и том же alpha, общий шанс случайно увидеть значимость хотя бы где-то становится выше. Поэтому важно заранее определить, какие сравнения входят в одну семью, и применять подходящую коррекцию.

Проверь себя · 1/3разбор после ответа
Вы настроили контроль FDR на 0.1 и после Benjamini–Hochberg получили 20 значимых сравнений. Как корректнее интерпретировать это число?
Тренировать A/B в Telegram

Ещё вопросы по теме «Множественное тестирование»