Q: В эксперименте у вас 1 основная метрика и 3 `guardrail`-метрики, а также 10 сегментных разрезов. Какой подход к принятию решения наиболее корректен с точки зрения множественных проверок?

Нужна заранее заданная `decision policy`: что первично, что ограничения, и как трактуются сегменты при `multiple comparisons`. Когда метрик и разрезов много, без явного правила легко случайно найти 'победу' и нарушить корректность вывода. Хорошая практика — заранее зафиксировать, по чему принимается решение, как обрабатываются `guardrail`, и является ли сегментный анализ подтверждающим или исследовательским. Если сегменты используются для отбора, это `multiple comparisons`, и нужно либо корректировать, либо подтверждать в отдельном запуске. Типичная ошибка — смешать все проверки в одно правило 'значимо где угодно'.

Question 1

Вы заранее определили одну основную метрику успеха, но после эксперимента дополнительно посмотрели ещё 10 метрик. Как корректнее всего оформить принятие решения?

Accepted Answer

Заранее заданная основная метрика снижает риск ошибок из-за `multiple comparisons`. Если вы заранее фиксируете основную метрику, вы ограничиваете пространство решений и уменьшаете шанс случайной 'победы'. Вторичные метрики можно анализировать, но важно явно обозначать их статус и правила интерпретации, включая возможные поправки (`Bonferroni`, `Holm` или `FDR`). Типичная ошибка — делать выбор метрики после просмотра результатов и выдавать это за заранее запланированное решение.

Question 2

После эксперимента вы посмотрели 20 сегментов и выбрали один с `p-value=0.03`, чтобы сказать, что фича работает в этом сегменте. Что корректнее сделать?

Accepted Answer

Выбор 'лучшего' сегмента после просмотра многих — классический риск из-за `multiple comparisons`. Если вы просмотрели 20 сегментов и выбрали один по минимальному `p-value`, шанс случайной находки сильно выше, чем для одного заранее заданного сегмента. Корректный подход — заранее фиксировать ключевые сегменты или применять поправку на множественность, например контроль `FWER` или `FDR`. Частая практика — трактовать такие результаты как гипотезогенерацию и подтверждать на новом запуске, чтобы избежать переобучения на шуме.

Question 3

В наборе из 8 проверок одна метрика имеет сырой `p-value=0.03`, но после коррекции `Holm` её скорректированный `p-value=0.12`. Как корректнее сформулировать вывод?

Accepted Answer

Если вы контролируете `FWER` с `Holm`, решение принимают по скорректированным `p-value`. Сырой `p-value` не учитывает, что вы делали несколько проверок, а `Holm` как раз корректирует это для контроля `FWER`. Если скорректированный `p-value` больше порога, то с точки зрения заранее выбранного правила значимость не подтверждена. Типичная ошибка — показывать только сырой `p-value` и умалчивать про множественность, что делает репортинг некорректным.

Question 4

Вы применяете процедуру `Benjamini–Hochberg` для контроля `FDR` на уровне 0.05 к 5 проверкам с отсортированными `p-value`: 0.004, 0.012, 0.018, 0.07, 0.2. Сколько гипотез будет отклонено?

Accepted Answer

В `Benjamini–Hochberg` ищут максимальный индекс `i`, где `p_i <= (i/m)*q`. Здесь пороги равны 0.01, 0.02, 0.03, 0.04, 0.05 для `m=5` и `q=0.05`. Первые три `p-value` проходят свои пороги, а четвёртый (0.07) не проходит 0.04. Поэтому отклоняются первые три гипотезы. Типичная ошибка — отклонять только те, что меньше 0.05, не учитывая правило `Benjamini–Hochberg`.

Question 5

В эксперименте у вас 1 основная метрика и 3 `guardrail`-метрики, а также 10 сегментных разрезов. Какой подход к принятию решения наиболее корректен с точки зрения множественных проверок?

Accepted Answer

Нужна заранее заданная `decision policy`: что первично, что ограничения, и как трактуются сегменты при `multiple comparisons`. Когда метрик и разрезов много, без явного правила легко случайно найти 'победу' и нарушить корректность вывода. Хорошая практика — заранее зафиксировать, по чему принимается решение, как обрабатываются `guardrail`, и является ли сегментный анализ подтверждающим или исследовательским. Если сегменты используются для отбора, это `multiple comparisons`, и нужно либо корректировать, либо подтверждать в отдельном запуске. Типичная ошибка — смешать все проверки в одно правило 'значимо где угодно'.

Множественные сравнения: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика