Множественное тестирование: вопросы для собеседования (часть 4)

Когда в эксперименте несколько вариантов или метрик, вероятность ложноположительного результата растёт. Поправка Бонферрони, FDR, Holm — методы контроля ошибки множественного сравнения. На собеседовании просят объяснить, почему нельзя просто запустить тест с пятью вариантами и выбрать лучший по p-value.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 1620 из 20

16Вы анализируете `A/B/n` с 1 контролем и 8 вариантами и хотите выбрать 2–3 кандидата для следующего подтверждающего теста. Почему в такой задаче иногда предпочитают `FDR` вместо `Bonferroni`?
A`FDR` обычно позволяет отобрать больше кандидатов при контроле ожидаемой доли `false positives` среди отобранных.
B`FDR` полностью снимает необходимость определять семью гипотез.
C`Bonferroni` всегда даёт больше мощности, чем `FDR`.
D`FDR` делает все сравнения независимыми, поэтому ошибки исчезают.
Ответ: `FDR` полезен в поисковой фазе, потому что допускает больше находок при контроле ожидаемой доли `false positives` среди них.

Если цель — shortlist, вы можете согласиться на то, что часть кандидатов окажется ложной находкой, но хотите держать эту долю под контролем. Тогда `FDR` часто даёт лучший баланс между количеством сигналов и риском. В подтверждающей фазе shortlist обычно перепроверяют более строгими методами или в отдельном эксперименте.

17Какое утверждение обычно верно для `Benjamini–Hochberg` по сравнению с `Bonferroni` при большом числе проверок?
AОн гарантирует отсутствие `false positives` в любой выборке.
BОн делает пороги всегда строже, чем `Bonferroni`, поэтому почти ничего не проходит.
CОн обычно менее строгий и даёт больше мощности, потому что контролирует `FDR`, а не `family-wise error`.
DОн применим только когда есть ровно 2 варианта в эксперименте.
Ответ: `Benjamini–Hochberg` обычно увеличивает шанс обнаружить реальные эффекты при большом числе проверок, контролируя `FDR` вместо `family-wise error`.

Когда гипотез много, контроль `family-wise error` часто становится слишком строгим и «гасит» сигнал. `Benjamini–Hochberg` меняет цель: не исключить любую ложную находку, а ограничить их ожидаемую долю среди найденных. Поэтому он часто подходит для этапа поиска и ранжирования кандидатов.

18В `A/B/n` у вас контроль A и варианты B и C, и вы хотите выбрать любой вариант, который статистически лучше контроля по одной основной метрике. Какие проверки логично считать одной семьёй для коррекции `multiple comparisons`?
AТолько сравнение варианта, который оказался лучшим по лифту, с контролем.
BСравнения B против A и C против A, потому что оба могут привести к решению о запуске.
CТолько сравнение B против C, потому что варианты конкурируют друг с другом.
DКоррекция не нужна, так как метрика одна.
Ответ: Семья гипотез определяется решениями, которые вы планируете принимать, и в `A/B/n` обычно включает все плановые сравнения с контролем.

Если вы готовы запустить любой вариант, который обгонит контроль, то фактически у вас несколько шансов «победить» контроль. Поэтому сравнения B против A и C против A должны учитываться совместно. Иначе вы будете недооценивать риск `false positives` на уровне эксперимента.

19В `A/B/n` у вас контроль A и варианты B, C, D. В отчёте вы хотите интерпретировать сравнения каждого варианта с контролем и сравнение B с C. Что верно про выбор семьи для коррекции `multiple comparisons`?
AВ семью нужно включить все сравнения, которые вы собираетесь интерпретировать (A против B, A против C, A против D и B против C), иначе часть выводов будет некорректна по уровню ошибок.
BВ семью достаточно включить только те сравнения, где получилось p-value < 0.05.
CСемья всегда включает только сравнения с контролем, остальные сравнения не влияют на ошибки.
DКоррекция не нужна, потому что все сравнения сделаны в одном эксперименте.
Ответ: Семья гипотез для `multiple comparisons` должна соответствовать набору утверждений, которые вы собираетесь делать по результатам.

Коррекция нужна не «по факту значимости», а по факту количества проверяемых утверждений. Если вы планируете сделать выводы и про B против C, то это дополнительная проверка, влияющая на общий риск `false positives`. Поэтому семейство гипотез должно включать все сравнения, которые вы хотите трактовать как подтверждённые. Иначе часть отчёта будет выглядеть более уверенно, чем она есть на самом деле.

20Вы провели `A/B`, а затем проверили эффект отдельно в 8 сегментах пользователей и нашли значимость только в одном сегменте на `alpha` 0.05. Какой вывод наиболее корректен?
AЭффект доказан именно для этого сегмента и не требует дополнительных проверок.
BЭто означает, что общий эффект точно есть, просто он скрывался.
CЗначимость в одном сегменте гарантирует, что остальные сегменты точно без эффекта.
DЭто пример `multiple comparisons` по сегментам: результат может быть случайным `false positives`, и нужен план коррекции или подтверждающий тест на этом сегменте.
Ответ: Проверка эффектов по множеству сегментов создаёт `multiple comparisons` и повышает риск `false positives` без корректной процедуры.

Сегментация часто полезна, но она умножает число проверок, даже если формально эксперимент один. Если вы ищете «где значимо», то почти гарантированно найдёте случайные всплески при достаточно большом числе сегментов. Поэтому такие результаты лучше трактовать как исследовательские и подтверждать на новой выборке или с корректировками. Заранее заданные сегменты и план анализа уменьшают риск ошибочных выводов.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED