В тесте A/B/n (A — контроль, B и C — варианты) вы применили Holm на сравнения B против A и C против A по основной метрике. После коррекции значимым осталось только сравнение C против A. Как корректно сформулировать вывод?
AМожно утверждать, что C лучше всех вариантов, включая B: после коррекции значимым осталось только сравнение C против контроля
BПрименение поправки
Holm к набору сравнений делает любые дальнейшие выводы по основной метрике невозможными, в том числе про C и ACМожно утверждать, что B и C дают одинаковый эффект, раз сравнение B с контролем после коррекции не оказалось статистически значимым
DМожно утверждать, что C статистически лучше контроля при контроле общей ошибки, но сравнение B и C требует отдельного корректного теста
Правильный ответ. После
Holm корректно делать только те выводы, которые соответствуют проверенным и скорректированным гипотезам.Разбор
Коррекция контролирует семейную ошибку для набора сравнений, которые вы включили в процедуру. Если значимым осталось C против A, то именно это утверждение вы можете поддерживать статистически. Отсутствие значимости для B против A не доказывает равенство, а также не даёт права сравнивать B и C без отдельного теста. Для продуктового решения также важно дополнительно оценить практическую значимость и риски.
Проверь себя · 1/3разбор после ответа
Команда сравнивает 8 вариантов с контролем и для каждого теста использует порог
alpha = 0.05 без коррекции. Что происходит с вероятностью получить хотя бы одно ложное срабатывание среди всех сравнений?Ещё вопросы по теме «Множественное тестирование»
- Вы запускаете `A/B/n`-эксперимент: контроль и 3 варианта интерфейса. Что принципиально меняется по сравнению с `A/B` в части риска ложноположительных результатов, если проверять каждое сравнение на `alpha` 0.05 без коррекции?
- В эксперименте `A/B/n` у вас контроль A и варианты B и C, и вы готовы запустить любой вариант, который статистически лучше контроля по одной основной метрике. Какие проверки логично считать одной семьёй для поправки на множественные сравнения?
- Команда сравнивает 8 вариантов с контролем и для каждого теста использует порог `alpha = 0.05` без коррекции. Что происходит с вероятностью получить хотя бы одно ложное срабатывание среди всех сравнений?
- Что означает контроль `FWER` (вероятности хотя бы одной ошибки I рода) в задаче с множественными сравнениями?
- Какое утверждение верно про коррекцию `Bonferroni` при множественных сравнениях?
- Все вопросы по «Множественное тестирование» →