В A/B/n тесте вы сравниваете контроль и 3 варианта по одной первичной метрике, а цена ошибочного запуска очень высока. Какой выбор коррекции на множественные сравнения наиболее логичен?

AИспользовать Bonferroni или Holm, потому что важен контроль family-wise error и минимизация ложноположительных срабатываний
BНе делать коррекцию вовсе, потому что первичная метрика одна, а несколько вариантов теста не увеличивают вероятность ошибки первого рода
CИспользовать FDR, чтобы найти больше победителей и не упустить эффект, даже если цена ошибочного запуска для бизнеса очень высокая
DПовысить alpha до 0.1 для всех сравнений, чтобы не упустить эффект и быстрее принять решение по выкату варианта в продукт
Правильный ответ. Если критично избежать даже одного ложноположительного срабатывания, выбирают методы контроля family-wise error вроде Bonferroni или Holm.

Разбор

В подтверждающих запусках чаще важнее надёжность, чем число обнаруженных эффектов. Bonferroni и Holm нацелены на ограничение вероятности хотя бы одной ложной находки в семье сравнений (family-wise error). Это может снизить шанс «победы» для настоящего эффекта, но снижает риск дорогостоящей ошибки. Отказ от коррекции, выбор FDR ради «больше победителей» или повышение alpha до 0.1 идут вразрез с целью минимизации ложноположительных срабатываний.

Проверь себя · 1/3разбор после ответа
Команда сравнивает 8 вариантов с контролем и для каждого теста использует порог alpha = 0.05 без коррекции. Что происходит с вероятностью получить хотя бы одно ложное срабатывание среди всех сравнений?
Тренировать A/B в Telegram

Ещё вопросы по теме «Множественное тестирование»