Команда запустила A/B/n с 6 вариантами, посмотрела результаты и решила протестировать только самый лучший вариант против контроля на том же датасете, используя alpha 0.05 как в A/B. В чём главная проблема такого подхода?
AПроблем нет, так всегда делают в
A/B/n.BПроблема только в том, что
alpha слишком маленький и нужно увеличить.CПроблема в том, что
Benjamini–Hochberg нельзя применять к A/B/n.DЭто двойное использование данных и скрытые
multiple comparisons: выбор победителя по данным завышает шанс false positives, если не учитывать отбор и множественность.Правильный ответ. Если сначала выбрать победителя по данным, а затем проверить его теми же данными, то из-за отбора увеличивается риск
false positives.Разбор
Когда вы выбираете лучший вариант из нескольких, вы уже используете множественные сравнения, даже если формально считаете только один p-value. Повторная проверка на том же датасете не «обнуляет» этот выбор и делает выводы слишком оптимистичными. Корректнее заранее фиксировать план сравнений и коррекцию или подтверждать победителя на независимых данных. Иначе «победа» может быть просто удачной флуктуацией.
Проверь себя · 1/3разбор после ответа
В одном эксперименте вы смотрите 25 продуктовых метрик и хотите составить список метрик, которые стоит изучить глубже, понимая что часть сигналов может оказаться ложной. Какую коррекцию чаще выбирают и почему?
Ещё вопросы по теме «Множественное тестирование»
- Вы запускаете `A/B/n`-эксперимент: контроль и 3 варианта интерфейса. Что принципиально меняется по сравнению с `A/B` в части риска `false positives`, если проверять каждое сравнение на `alpha` 0.05 без коррекции?
- В `A/B/n` у вас контроль A и варианты B и C, и вы хотите выбрать любой вариант, который статистически лучше контроля по одной основной метрике. Какие проверки логично считать одной семьёй для коррекции `multiple comparisons`?
- Команда сравнивает 8 вариантов с контролем и для каждого теста использует `alpha` 0.05 без коррекции. Что происходит с вероятностью получить хотя бы один `false positives` среди всех сравнений?
- Что означает контроль `family-wise error` (суммарная ошибка первого рода) в задаче `multiple comparisons`?
- Какое утверждение верно про коррекцию `Bonferroni` при `multiple comparisons`?
- Все вопросы по «Множественное тестирование» →