Вопросы по теме «Множественное тестирование»

Когда в эксперименте несколько вариантов или метрик, вероятность ложноположительного результата растёт. Поправка Бонферрони, FDR, Holm — методы контроля ошибки множественного сравнения. На собеседовании просят объяснить, почему нельзя просто запустить тест с пятью вариантами и выбрать лучший по p-value.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 15 из 20

1У вас 4 заранее запланированных сравнения и нужно контролировать `family-wise error` (суммарная ошибка первого рода), но хочется быть менее консервативным, чем `Bonferroni`. Что чаще выбирают?
A`Benjamini–Hochberg`
B`Holm`
CУвеличить `alpha`
DНе делать коррекцию, так как план заранее известен.
Ответ: `Holm` часто используют как менее консервативную альтернативу `Bonferroni` при контроле `family-wise error` (суммарная ошибка первого рода).

`Holm` сохраняет цель контроля `family-wise error` (суммарная ошибка первого рода), но обычно пропускает больше реальных эффектов, чем `Bonferroni`. Это полезно, когда сравнений немного и нужна строгая защита, но хочется снизить потери мощности.

2Что означает контроль `family-wise error` (суммарная ошибка первого рода) в задаче `multiple comparisons`?
AОграничить средний размер эффекта по всем вариантам.
BОграничить ожидаемую долю ложных находок среди всех значимых результатов.
CОграничить вероятность пропустить реальный эффект.
DОграничить вероятность сделать хотя бы одну ложную находку (`false positives`) внутри выбранной семьи гипотез.
Ответ: Контроль `family-wise error` (суммарная ошибка первого рода) означает контроль вероятности хотя бы одного `false positives` в заданной семье проверок.

Это более строгая цель, чем контроль `FDR`, потому что она защищает от даже одной ложной «победы» среди множества сравнений. Такой контроль часто важен, когда цена ошибочного запуска высока. Поэтому методы, нацеленные на `family-wise error` (суммарная ошибка первого рода), обычно более консервативны.

3В `A/B` тесте команда мониторит 12 метрик и сообщает только те, где p-value < 0.05, без коррекции. Какой риск это создаёт?
AРиска нет, потому что метрики измеряются на одних и тех же пользователях.
BРиск только в том, что `Holm` станет слишком строгим.
CРиск в том, что увеличится вероятность пропустить эффект, а не получить `false positives`.
DРиск `multiple comparisons`: среди множества метрик легче случайно найти значимые и получить `false positives`, если не зафиксировать первичную метрику или не корректировать.
Ответ: Много метрик без коррекции увеличивает шанс случайно получить значимый результат и получить `false positives` из-за `multiple comparisons`.

Если вы смотрите много метрик и выбираете только «красивые» результаты, вы по сути проводите множественные проверки. Даже без реального эффекта какая-то метрика может случайно стать значимой. Обычно это решают через заранее определённую первичную метрику и/или корректировки на множественность. Для вторичных метрик выводы часто формулируют осторожнее или подтверждают отдельно.

4В одном эксперименте вы смотрите 25 продуктовых метрик и хотите составить список метрик, которые стоит изучить глубже, понимая что часть сигналов может оказаться ложной. Какую коррекцию чаще выбирают и почему?
A`Bonferroni`, потому что он максимизирует число находок.
B`Holm`, потому что он контролирует только `FDR`.
C`Benjamini–Hochberg`, потому что он контролирует `FDR` и обычно даёт больше мощности при большом числе метрик.
DНе делать коррекцию, потому что метрики коррелированы.
Ответ: При большом числе метрик `Benjamini–Hochberg` часто выбирают для контроля `FDR`, чтобы не потерять слишком много мощности.

Если метрик много, `family-wise error`-контроль может стать слишком строгим и скрыть полезные сигналы. `FDR`-подход лучше соответствует задаче «найти кандидатов для дальнейшей проверки». Но даже после `FDR` корректнее считать результаты гипотезами для подтверждения, а не финальными истинами.

5После применения `Bonferroni` ни одно из 5 сравнений не прошло порог. Какой вывод корректный?
AВсе варианты точно равны контролю, эффекта нет.
BДанных недостаточно, чтобы утверждать про улучшение при выбранном контроле ошибок; отсутствие значимости не доказывает отсутствие эффекта.
CМожно выбрать вариант с наибольшим лифтом и считать его победителем, раз остальные незначимы.
DЭто означает, что исходный `alpha` был завышен и его нужно увеличить.
Ответ: Неуспех после коррекции означает недостаток статистических оснований при выбранном контроле ошибок, а не доказательство нулевого эффекта.

Коррекция делает критерий строже, поэтому «не пройти порог» может означать, что эффекты есть, но данных недостаточно для уверенного вывода. Корректный вывод — отсутствие статистически надёжного подтверждения на выбранном уровне контроля ошибок. Это повод пересмотреть мощность, дизайн или подтвердить эффект отдельным тестом.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED