В A/B/n тесте вы сравниваете контроль и 3 варианта по одной первичной метрике, а цена ошибочного запуска очень высока. Какой выбор коррекции на множественные сравнения наиболее логичен?
AИспользовать
Bonferroni или Holm, потому что важен контроль family-wise error и минимизация ложноположительных срабатыванийBНе делать коррекцию вовсе, потому что первичная метрика одна, а несколько вариантов теста не увеличивают вероятность ошибки первого рода
CИспользовать
FDR, чтобы найти больше победителей и не упустить эффект, даже если цена ошибочного запуска для бизнеса очень высокаяDПовысить
alpha до 0.1 для всех сравнений, чтобы не упустить эффект и быстрее принять решение по выкату варианта в продуктПравильный ответ. Если критично избежать даже одного ложноположительного срабатывания, выбирают методы контроля
family-wise error вроде Bonferroni или Holm.Разбор
В подтверждающих запусках чаще важнее надёжность, чем число обнаруженных эффектов. Bonferroni и Holm нацелены на ограничение вероятности хотя бы одной ложной находки в семье сравнений (family-wise error). Это может снизить шанс «победы» для настоящего эффекта, но снижает риск дорогостоящей ошибки. Отказ от коррекции, выбор FDR ради «больше победителей» или повышение alpha до 0.1 идут вразрез с целью минимизации ложноположительных срабатываний.
Проверь себя · 1/3разбор после ответа
Команда сравнивает 8 вариантов с контролем и для каждого теста использует порог
alpha = 0.05 без коррекции. Что происходит с вероятностью получить хотя бы одно ложное срабатывание среди всех сравнений?Ещё вопросы по теме «Множественное тестирование»
- Вы запускаете `A/B/n`-эксперимент: контроль и 3 варианта интерфейса. Что принципиально меняется по сравнению с `A/B` в части риска ложноположительных результатов, если проверять каждое сравнение на `alpha` 0.05 без коррекции?
- В эксперименте `A/B/n` у вас контроль A и варианты B и C, и вы готовы запустить любой вариант, который статистически лучше контроля по одной основной метрике. Какие проверки логично считать одной семьёй для поправки на множественные сравнения?
- Команда сравнивает 8 вариантов с контролем и для каждого теста использует порог `alpha = 0.05` без коррекции. Что происходит с вероятностью получить хотя бы одно ложное срабатывание среди всех сравнений?
- Что означает контроль `FWER` (вероятности хотя бы одной ошибки I рода) в задаче с множественными сравнениями?
- Какое утверждение верно про коррекцию `Bonferroni` при множественных сравнениях?
- Все вопросы по «Множественное тестирование» →