Q: В A/B-тесте вы измеряете 15 метрик и объявляете победу, если хоть одна метрика имеет `p-value < 0.05`. Какой риск вы в первую очередь раздуваете?

Правило 'победа, если хоть где-то значимо' напрямую раздувает `FWER`. Когда вы объявляете победу при условии «хотя бы одна из 15 метрик имеет `p-value < 0.05`», вы прямо контролируете противоположное событию ошибки `FWER` (Family-Wise Error Rate) — вероятность хотя бы одной ложной находки в семействе. При независимых метриках и истинной `H0` вероятность хоть где-то «зацепиться» оценивается как `1 - 0.95^15 ≈ 0.54`. `FDR` (`False Discovery Rate`) — другая величина, ожидаемая доля ошибок среди отвергнутых, и контролируется поправкой `Benjamini–Hochberg`, но она не применяется сама по себе. Риск ложной находки от увеличения числа метрик растёт, а не уменьшается.

Question 1

Вы протестировали 12 сегментов и применили `Holm` для контроля семейной ошибки I рода (FWER). Какой вариант отчёта наиболее корректен?

Accepted Answer

Корректный отчёт явно фиксирует семейство тестов, метод поправки и правило принятия решений. Для прозрачного отчёта по множественным сравнениям нужно указать общее число проверок (тут 12), применённую процедуру (`Holm`), уровень `alpha` и приводить скорректированные `p-value`. Опускать число проверок нельзя: тогда читатель не может оценить силу поправки. Опускать сегменты с `p-value > 0.05` — скрытое cherry-picking. Скорректированный `p-value` не равен вероятности `H0` — это сохранение того же ошибочного толкования, что и для нескорректированного `p-value`.

Question 2

Вы тестируете 200 гипотез по разным фичам и хотите контролировать `FDR` (долю ложных открытий среди отвергнутых гипотез), не теряя мощности так сильно, как при `Bonferroni`. Какой метод наиболее уместен?

Accepted Answer

Для контроля доли ложных открытий в больших наборах тестов часто используют процедуру `Benjamini–Hochberg`. Поправки `Bonferroni` и `Holm` контролируют вероятность хотя бы одной ошибки I рода и поэтому обычно слишком консервативны при сотнях проверок. Если задача похожа на скрининг и важно держать долю ложных находок среди отвергнутых гипотез в пределах, логичнее контролировать `FDR`, и для этого подходит процедура `Benjamini–Hochberg`. Утверждение, что `p-value` сам учитывает множественность, неверно: каждый отдельный `p-value` рассчитан для одной проверки.

Question 3

Вы делаете 10 проверок и хотите контролировать FWER (вероятность хотя бы одной ошибки I рода) на уровне `alpha=0.05`. Какой порог для каждого теста задаёт поправка `Bonferroni`?

Accepted Answer

Поправка `Bonferroni` делит исходный `alpha` на число проверок и для 10 тестов даёт порог 0.005. Логика поправки `Bonferroni` — сделать каждый отдельный тест более строгим, чтобы вероятность хотя бы одной ложной находки в семействе тестов оставалась ограниченной. При 10 проверках порог становится 0.05/10 = 0.005. Типичная ошибка — продолжать сравнивать каждую проверку с исходным `alpha=0.05` и считать, что FWER всё ещё равен 0.05, или ошибочно делить на 5 либо умножать на 10.

Question 4

Вы хотите контролировать `FWER`, но коррекция `Bonferroni` кажется слишком консервативной. Какое утверждение про процедуру `Holm` наиболее верное?

Accepted Answer

`Holm` — это более мощная альтернатива `Bonferroni` для контроля `FWER`, основанная на пошаговой проверке `p-value`. `Holm` сортирует `p-value` и последовательно сравнивает их с порогами, которые становятся менее строгими по мере продвижения. За счёт этого процедура часто отклоняет больше гипотез при том же контроле `FWER`, чем `Bonferroni`. Типичная ошибка — путать `Holm` с `Benjamini–Hochberg`, который контролирует `FDR`, а не `FWER`.

Question 5

В A/B-тесте вы измеряете 15 метрик и объявляете победу, если хоть одна метрика имеет `p-value < 0.05`. Какой риск вы в первую очередь раздуваете?

Accepted Answer

Правило 'победа, если хоть где-то значимо' напрямую раздувает `FWER`. Когда вы объявляете победу при условии «хотя бы одна из 15 метрик имеет `p-value < 0.05`», вы прямо контролируете противоположное событию ошибки `FWER` (Family-Wise Error Rate) — вероятность хотя бы одной ложной находки в семействе. При независимых метриках и истинной `H0` вероятность хоть где-то «зацепиться» оценивается как `1 - 0.95^15 ≈ 0.54`. `FDR` (`False Discovery Rate`) — другая величина, ожидаемая доля ошибок среди отвергнутых, и контролируется поправкой `Benjamini–Hochberg`, но она не применяется сама по себе. Риск ложной находки от увеличения числа метрик растёт, а не уменьшается.

Множественные сравнения: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика