Команда запустила `A/B/n` с 6 вариантами, посмотрела результаты и решила протестировать только самый лучший вариант против контроля на том же датасете, используя `alpha` 0.05 как в `A/B`. В чём главная проблема такого подхода?

Question

Карьерник · Accepted Answer

Правильный ответ: Проблем нет, так всегда делают в `A/B/n`.. Если сначала выбрать победителя по данным, а затем проверить его теми же данными, то из-за отбора увеличивается риск `false positives`. Когда вы выбираете лучший вариант из нескольких, вы уже используете множественные сравнения, даже если формально считаете только один p-value. Повторная проверка на том же датасете не «обнуляет» этот выбор и делает выводы слишком оптимистичными. Корректнее заранее фиксировать план сравнений и коррекцию или подтверждать победителя на независимых данных. Иначе «победа» может быть просто удачной флуктуацией.

Разбор

Ещё вопросы по теме «Множественное тестирование»