В A/B тесте команда мониторит 12 метрик и сообщает только те, где p-value < 0.05, без коррекции. Какой риск это создаёт?
AРиска нет, потому что метрики измеряются на одних и тех же пользователях.
BРиск только в том, что
Holm станет слишком строгим.CРиск в том, что увеличится вероятность пропустить эффект, а не получить
false positives.DРиск
multiple comparisons: среди множества метрик легче случайно найти значимые и получить false positives, если не зафиксировать первичную метрику или не корректировать.Правильный ответ. Много метрик без коррекции увеличивает шанс случайно получить значимый результат и получить
false positives из-за multiple comparisons.Разбор
Если вы смотрите много метрик и выбираете только «красивые» результаты, вы по сути проводите множественные проверки. Даже без реального эффекта какая-то метрика может случайно стать значимой. Обычно это решают через заранее определённую первичную метрику и/или корректировки на множественность. Для вторичных метрик выводы часто формулируют осторожнее или подтверждают отдельно.
Проверь себя · 1/3разбор после ответа
Какое утверждение верно про коррекцию
Bonferroni при multiple comparisons?Ещё вопросы по теме «Множественное тестирование»
- Вы запускаете `A/B/n`-эксперимент: контроль и 3 варианта интерфейса. Что принципиально меняется по сравнению с `A/B` в части риска `false positives`, если проверять каждое сравнение на `alpha` 0.05 без коррекции?
- В `A/B/n` у вас контроль A и варианты B и C, и вы хотите выбрать любой вариант, который статистически лучше контроля по одной основной метрике. Какие проверки логично считать одной семьёй для коррекции `multiple comparisons`?
- Команда сравнивает 8 вариантов с контролем и для каждого теста использует `alpha` 0.05 без коррекции. Что происходит с вероятностью получить хотя бы один `false positives` среди всех сравнений?
- Что означает контроль `family-wise error` (суммарная ошибка первого рода) в задаче `multiple comparisons`?
- Какое утверждение верно про коррекцию `Bonferroni` при `multiple comparisons`?
- Все вопросы по «Множественное тестирование» →