Question 1

Вы анализируете тест с одним контролем и восемью вариантами и хотите выбрать 2–3 кандидата для следующего подтверждающего теста. Почему в такой задаче иногда предпочитают контроль доли ложных открытий вместо поправки Бонферрони?

Accepted Answer

Контроль доли ложных открытий полезен в поисковой фазе: он допускает больше находок при удержании ожидаемой доли ложных среди отобранных кандидатов. Если цель — короткий список, вы можете согласиться на то, что часть кандидатов окажется ложной находкой, но хотите держать эту долю под контролем. Тогда контроль доли ложных открытий часто даёт лучший баланс между количеством сигналов и риском, чем строгая поправка Бонферрони. В подтверждающей фазе короткий список перепроверяют более строгими методами или в отдельном эксперименте. Утверждения про независимость сравнений или ненужность набора гипотез не соответствуют реальной механике метода.

Question 2

Какое утверждение обычно верно для `Benjamini–Hochberg` по сравнению с `Bonferroni` при большом числе проверок?

Accepted Answer

`Benjamini–Hochberg` обычно увеличивает шанс обнаружить реальные эффекты при большом числе проверок, контролируя `FDR`. Когда гипотез много, контроль вероятности хотя бы одной ложной находки часто становится слишком строгим и «гасит» сигнал. `Benjamini–Hochberg` меняет цель: не исключить любую ложную находку, а ограничить их ожидаемую долю среди отвергнутых. Поэтому он обычно подходит для этапа поиска и ранжирования кандидатов и даёт больше мощности, чем `Bonferroni`. Утверждения о полной гарантии отсутствия ошибок, об ещё большей строгости или об ограничении только двумя вариантами — неверны.

Question 3

В эксперименте `A/B/n` у вас контроль A и варианты B и C, и вы готовы запустить любой вариант, который статистически лучше контроля по одной основной метрике. Какие проверки логично считать одной семьёй для поправки на множественные сравнения?

Accepted Answer

Семья гипотез определяется решениями, которые вы планируете принимать, и в `A/B/n` обычно включает все плановые сравнения с контролем. Если вы готовы запустить любой вариант, который обгонит контроль, то фактически у вас несколько шансов «победить» контроль. Поэтому сравнения B против A и C против A нужно учитывать совместно. Иначе вы будете недооценивать риск ложноположительных решений на уровне всего эксперимента и принимать невыгодные запуски чаще, чем подразумевает заявленный уровень значимости.

Question 4

В тесте у вас контроль A и варианты B, C, D. Вы хотите интерпретировать сравнения каждого варианта с контролем и сравнение B с C. Что верно про выбор набора гипотез для поправки на множественные сравнения?

Accepted Answer

Набор гипотез для множественных сравнений должен совпадать с набором утверждений, которые вы планируете делать по результатам. Поправка нужна не «по факту значимости», а по факту количества проверяемых утверждений. Если вы планируете делать выводы и про B против C, это дополнительная проверка, влияющая на общий риск ложных срабатываний. Поэтому набор гипотез должен включать все сравнения, которые вы хотите трактовать как подтверждённые. Иначе часть отчёта будет выглядеть более уверенно, чем она есть на самом деле.

Question 5

Вы провели A/B тест, а затем проверили эффект отдельно в 8 сегментах пользователей и нашли значимость только в одном сегменте на уровне `alpha` 0.05. Какой вывод наиболее корректен?

Accepted Answer

Проверка эффектов по множеству сегментов создаёт множественные сравнения и повышает риск ошибок первого рода без корректной процедуры. Сегментация часто полезна, но она умножает число проверок, даже если формально эксперимент один. Если вы ищете «где значимо», то почти гарантированно найдёте случайные всплески при достаточно большом числе сегментов. Поэтому такие результаты лучше трактовать как исследовательские и подтверждать на новой выборке или с корректировками. Заранее заданные сегменты и план анализа уменьшают риск ошибочных выводов.

Множественное тестирование: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты