Множественное тестирование: вопросы для собеседования (часть 3)
Когда в эксперименте несколько вариантов или метрик, вероятность ложноположительного результата растёт. Поправка Бонферрони, FDR, Holm — методы контроля ошибки множественного сравнения. На собеседовании просят объяснить, почему нельзя просто запустить тест с пятью вариантами и выбрать лучший по p-value.
Вопросы 11–15 из 20
11В `A/B/n` вы сравниваете контроль и 3 варианта по одной первичной метрике, а цена ошибочного запуска очень высока. Какой выбор коррекции наиболее логичен?
AНе делать коррекцию, потому что метрика одна.
BИспользовать `FDR`, чтобы найти больше победителей.
CИспользовать `Bonferroni` или `Holm`, потому что важен контроль `family-wise error` и минимизация `false positives`.
DПовысить `alpha` до 0.1, чтобы не упустить эффект.
Ответ: Если критично избежать даже одного `false positives`, выбирают методы контроля `family-wise error` вроде `Bonferroni` или `Holm`.
В подтверждающих запусках чаще всего важнее надёжность, чем количество обнаруженных эффектов. `Bonferroni` и `Holm` специально нацелены на ограничение вероятности хотя бы одной ложной находки в семье сравнений. Это может уменьшить шанс «победы» для настоящего эффекта, но снижает риск дорогостоящей ошибки.
12Вы настроили контроль `FDR` на 0.1 и после `Benjamini–Hochberg` получили 20 значимых сравнений. Как корректнее интерпретировать это число?
AВ среднем ожидается, что около 10% из этих 20 находок могут быть `false positives`.
BВероятность хотя бы одной ошибки среди 20 находок равна 10%.
CКаждая находка имеет ровно 10% шанс быть ложной, независимо от остальных.
DЭто означает, что общий `alpha` эксперимента стал 0.1.
Ответ: Контроль `FDR` задаёт ожидаемую долю `false positives` среди объявленных значимыми, а не вероятность ошибки для каждой отдельной находки.
`FDR` — это ожидание по повторениям процесса, а не гарантия для одного конкретного списка находок. Поэтому корректно говорить про долю ложных находок среди значимых в среднем. Для отдельного сравнения утверждение про «10% вероятность ложности» обычно не следует напрямую из `FDR`. Это важная интерпретационная ловушка в отчётах.
13Команда запустила `A/B/n` с 6 вариантами, посмотрела результаты и решила протестировать только самый лучший вариант против контроля на том же датасете, используя `alpha` 0.05 как в `A/B`. В чём главная проблема такого подхода?
AПроблем нет, так всегда делают в `A/B/n`.
BПроблема только в том, что `alpha` слишком маленький и нужно увеличить.
CПроблема в том, что `Benjamini–Hochberg` нельзя применять к `A/B/n`.
DЭто двойное использование данных и скрытые `multiple comparisons`: выбор победителя по данным завышает шанс `false positives`, если не учитывать отбор и множественность.
Ответ: Если сначала выбрать победителя по данным, а затем проверить его теми же данными, то из-за отбора увеличивается риск `false positives`.
Когда вы выбираете лучший вариант из нескольких, вы уже используете множественные сравнения, даже если формально считаете только один p-value. Повторная проверка на том же датасете не «обнуляет» этот выбор и делает выводы слишком оптимистичными. Корректнее заранее фиксировать план сравнений и коррекцию или подтверждать победителя на независимых данных. Иначе «победа» может быть просто удачной флуктуацией.
14В `A/B/n` (A — контроль, B и C — варианты) вы применили `Holm` на сравнения B против A и C против A по основной метрике. После коррекции значимым осталось только сравнение C против A. Как корректно сформулировать вывод?
AМожно утверждать, что C лучше всех, включая B, даже если B и C не сравнивали напрямую.
BМожно утверждать, что C статистически лучше контроля по основной метрике при контроле `family-wise error`, но нельзя делать выводы про различие B и C без отдельного корректного сравнения.
CМожно утверждать, что B и C одинаковы, раз B незначим.
DКоррекция `Holm` делает любые дальнейшие выводы невозможными.
Ответ: После `Holm` корректно делать только те выводы, которые соответствуют проверенным и скорректированным гипотезам.
Коррекция контролирует `family-wise error` для набора сравнений, которые вы включили в процедуру. Если значимым осталось C против A, то именно это утверждение вы можете поддерживать статистически. Отсутствие значимости для B против A не доказывает равенство, а также не даёт права сравнивать B и C без отдельного теста. Для продуктового решения также важно дополнительно оценить практическую значимость и риски.
15Вы делаете `A/B/n` с 1 контролем и 12 вариантами креатива, цель — отобрать несколько перспективных кандидатов для следующего подтверждающего теста. Какой подход к множественным проверкам чаще соответствует этой цели?
AЖёсткий `Bonferroni`, чтобы ни один кандидат не был ложным.
BИгнорировать `multiple comparisons`, чтобы не терять мощность.
CКонтроль `FDR` (например, `Benjamini–Hochberg`), чтобы ограничить ожидаемую долю `false positives` среди отобранных кандидатов.
DПовысить `alpha`, чтобы отобрать больше кандидатов.
Ответ: Для отбора кандидатов в поисковой фазе часто используют `FDR`, чтобы балансировать между находками и долей `false positives`.
В поисковой задаче обычно важнее не пропустить перспективные варианты, чем полностью исключить одну ложную находку. `FDR` даёт больше мощности при большом числе сравнений и задаёт понятный контроль качества shortlist. Затем shortlist подтверждают отдельным экспериментом или более строгой процедурой.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram