Q: В A/B тесте команда мониторит 12 метрик и сообщает только те, где `p-value` < 0.05, без коррекции. Какой риск это создаёт?

Много метрик без коррекции увеличивает шанс случайно получить значимый результат и собрать ложноположительные находки из-за множественных сравнений. Если вы смотрите много метрик и выбираете только «красивые» результаты, вы по сути проводите множественные проверки. Даже без реального эффекта какая-то метрика может случайно стать значимой. Обычно это решают через заранее определённую первичную метрику и/или корректировки на множественность. Для вторичных метрик выводы часто формулируют осторожнее или подтверждают отдельно.

Q: В одном эксперименте вы смотрите 25 продуктовых метрик и хотите составить список метрик, которые стоит изучить глубже, понимая что часть сигналов может оказаться ложной. Какую поправку чаще выбирают и почему?

При большом числе метрик `Benjamini–Hochberg` часто выбирают для контроля `FDR`, чтобы не потерять слишком много мощности. Если метрик много, контроль `FWER` может стать слишком строгим и скрыть полезные сигналы. Подход с контролем `FDR` лучше соответствует задаче «найти кандидатов для дальнейшей проверки». Но даже после поправки на `FDR` корректнее считать результаты гипотезами для подтверждения, а не финальными истинами.

Q: После применения поправки Бонферрони ни одно из 5 сравнений не прошло порог. Какой вывод корректный?

Неуспех после поправки означает недостаток статистических оснований при выбранном уровне контроля ошибок, а не доказательство нулевого эффекта. Поправка делает критерий строже, поэтому «не пройти порог» может означать, что эффекты есть, но данных недостаточно для уверенного вывода. Корректный вывод — отсутствие статистически надёжного подтверждения на выбранном уровне значимости. Это повод пересмотреть мощность, дизайн или подтвердить эффект отдельным тестом. Утверждать «эффекта нет» по неотвергнутой нулевой гипотезе — типичная ошибка интерпретации.

Question 1

У вас 4 заранее запланированных сравнения, и нужно контролировать суммарную ошибку первого рода (FWER), но хочется быть менее консервативным, чем поправка `Bonferroni`. Что чаще выбирают?

Accepted Answer

Поправка `Holm` контролирует ту же суммарную ошибку первого рода, что и `Bonferroni`, но обычно мощнее. Поправка `Holm` сохраняет ту же цель — контроль суммарной ошибки первого рода (FWER), но устроена ступенчато, поэтому обычно мощнее `Bonferroni` и пропускает больше реальных эффектов. Это полезно, когда сравнений немного и нужна строгая защита, но хочется снизить потери мощности. `Benjamini–Hochberg` контролирует другую величину — долю ложных открытий, а не FWER. Просто поднять уровень значимости или отказаться от поправки — значит сознательно увеличить риск ложных выводов.

Question 2

Что означает контроль `FWER` (вероятности хотя бы одной ошибки I рода) в задаче с множественными сравнениями?

Accepted Answer

Контроль `family-wise error` (суммарная ошибка первого рода) означает контроль вероятности хотя бы одного `false positives` в заданной семье проверок. Это более строгая цель, чем контроль `FDR`, потому что она защищает даже от одной ложной «победы» среди множества сравнений. Такой контроль часто важен, когда цена ошибочного запуска высока. Поэтому методы, нацеленные на контроль `FWER`, обычно более консервативны и требуют меньшего наблюдаемого эффекта для ложных срабатываний.

Question 3

В A/B тесте команда мониторит 12 метрик и сообщает только те, где `p-value` < 0.05, без коррекции. Какой риск это создаёт?

Accepted Answer

Много метрик без коррекции увеличивает шанс случайно получить значимый результат и собрать ложноположительные находки из-за множественных сравнений. Если вы смотрите много метрик и выбираете только «красивые» результаты, вы по сути проводите множественные проверки. Даже без реального эффекта какая-то метрика может случайно стать значимой. Обычно это решают через заранее определённую первичную метрику и/или корректировки на множественность. Для вторичных метрик выводы часто формулируют осторожнее или подтверждают отдельно.

Question 4

В одном эксперименте вы смотрите 25 продуктовых метрик и хотите составить список метрик, которые стоит изучить глубже, понимая что часть сигналов может оказаться ложной. Какую поправку чаще выбирают и почему?

Accepted Answer

При большом числе метрик `Benjamini–Hochberg` часто выбирают для контроля `FDR`, чтобы не потерять слишком много мощности. Если метрик много, контроль `FWER` может стать слишком строгим и скрыть полезные сигналы. Подход с контролем `FDR` лучше соответствует задаче «найти кандидатов для дальнейшей проверки». Но даже после поправки на `FDR` корректнее считать результаты гипотезами для подтверждения, а не финальными истинами.

Question 5

После применения поправки Бонферрони ни одно из 5 сравнений не прошло порог. Какой вывод корректный?

Accepted Answer

Неуспех после поправки означает недостаток статистических оснований при выбранном уровне контроля ошибок, а не доказательство нулевого эффекта. Поправка делает критерий строже, поэтому «не пройти порог» может означать, что эффекты есть, но данных недостаточно для уверенного вывода. Корректный вывод — отсутствие статистически надёжного подтверждения на выбранном уровне значимости. Это повод пересмотреть мощность, дизайн или подтвердить эффект отдельным тестом. Утверждать «эффекта нет» по неотвергнутой нулевой гипотезе — типичная ошибка интерпретации.

Вопросы по теме «Множественное тестирование»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты