Вы запускаете A/B/n-эксперимент: контроль и 3 варианта интерфейса. Что принципиально меняется по сравнению с A/B в части риска false positives, если проверять каждое сравнение на alpha 0.05 без коррекции?
AВозникает проблема
multiple comparisons: общий шанс получить хотя бы один false positives растёт, поэтому нужен план сравнения и коррекция.BНичего: можно тестировать каждую пару на том же
alpha и трактовать результаты так же, как в A/B.CРиск
false positives снижается, потому что трафик делится на большее число вариантов.DНужно сравнивать только варианты между собой, а контроль не использовать.
Правильный ответ. В
A/B/n число проверок обычно больше, поэтому без коррекции растёт вероятность false positives из-за multiple comparisons.Разбор
В A/B часто проверяют одну основную гипотезу, а в A/B/n появляется несколько сравнений, например каждый вариант против контроля. Если каждое сравнение делать на одном и том же alpha, общий шанс случайно увидеть значимость хотя бы где-то становится выше. Поэтому важно заранее определить, какие сравнения входят в одну семью, и применять подходящую коррекцию.
Проверь себя · 1/3разбор после ответа
Вы настроили контроль
FDR на 0.1 и после Benjamini–Hochberg получили 20 значимых сравнений. Как корректнее интерпретировать это число?Ещё вопросы по теме «Множественное тестирование»
- В `A/B/n` у вас контроль A и варианты B и C, и вы хотите выбрать любой вариант, который статистически лучше контроля по одной основной метрике. Какие проверки логично считать одной семьёй для коррекции `multiple comparisons`?
- Команда сравнивает 8 вариантов с контролем и для каждого теста использует `alpha` 0.05 без коррекции. Что происходит с вероятностью получить хотя бы один `false positives` среди всех сравнений?
- Что означает контроль `family-wise error` (суммарная ошибка первого рода) в задаче `multiple comparisons`?
- Какое утверждение верно про коррекцию `Bonferroni` при `multiple comparisons`?
- Чем процедура `Holm` чаще всего отличается от `Bonferroni`, если цель та же — контроль `family-wise error` (суммарная ошибка первого рода)?
- Все вопросы по «Множественное тестирование» →