Множественные сравнения: вопросы для собеседования (часть 3)
Чем больше гипотез проверяешь, тем выше вероятность ложного открытия. Поправка Бонферрони, Benjamini-Hochberg, FWER vs FDR — методы контроля этой проблемы. На собеседовании спрашивают, почему нельзя просто проверить 20 сегментов и доложить о «статистически значимых» различиях без коррекции.
Вопросы 11–15 из 20
11Вы протестировали 12 сегментов и применили `Holm` для контроля `FWER`. Какой вариант репортинга наиболее корректен?
AПишем только сегменты с `p-value < 0.05` и не упоминаем остальные проверки
BПишем, что применили `Holm`, значит `p-value` теперь равен вероятности `H0`
CПишем, что было 12 проверок, использовали `Holm` при `alpha = 0.05`, и значимыми считаем только результаты со скорректированным `p-value < 0.05`
DПишем, что коррекция была, но число проверок не указываем, чтобы не усложнять
Ответ: Корректный отчёт явно фиксирует семейство тестов, метод поправки и правило принятия решений.
При множественных проверках важно указать, сколько гипотез тестировали и какой метод использовали (`Holm`, `Bonferroni` или `Benjamini–Hochberg`). Также важно сказать, какой порог применяли и что именно считается значимым после коррекции. Типичная ошибка — показывать только «красивые» сегменты без контекста `multiple comparisons`, что завышает уверенность в выводах.
12Вы тестируете 200 гипотез по разным фичам и хотите контролировать `FDR`, чтобы не потерять слишком много мощности, как при `Bonferroni`. Какой метод наиболее уместен?
A`Bonferroni`
B`Holm`
CНе делать коррекцию, потому что `p-value` уже учитывает множественность
D`Benjamini–Hochberg`
Ответ: Для контроля `FDR` в больших наборах тестов часто используют `Benjamini–Hochberg`.
`Bonferroni` и `Holm` контролируют `FWER` и поэтому обычно более консервативны, особенно при сотнях проверок. Если задача похожа на скрининг и важно держать долю ложных находок среди выбранных в пределах, логичнее контролировать `FDR`. Типичная ошибка — требовать `FWER`-строгость там, где цель — отбор кандидатов с последующим подтверждением.
13Вы делаете 10 проверок и хотите контролировать `FWER` на уровне `alpha=0.05`. Какой порог для каждого теста задаёт поправка `Bonferroni`?
Ответ: `Bonferroni` делит `alpha` на число проверок, используя правило `alpha/m`.
Логика `Bonferroni` — сделать каждый отдельный тест более строгим, чтобы вероятность хотя бы одной ложной находки в семействе была ограничена. При 10 проверках порог становится 0.05/10 = 0.005. Типичная ошибка — продолжать сравнивать каждую проверку с 0.05 и считать, что `FWER` всё ещё равен 0.05.
14Вы хотите контролировать `FWER`, но `Bonferroni` кажется слишком консервативным. Какое утверждение про `Holm` наиболее верное?
A`Holm` контролирует только `FDR`, поэтому подходит для скрининга
B`Holm` нельзя применять к `p-value`, он работает только с оценками эффекта
C`Holm` требует независимости тестов, иначе всегда ломается
D`Holm` — пошаговая процедура, которая контролирует `FWER` и обычно менее консервативна, чем `Bonferroni`
Ответ: `Holm` — это более мощная альтернатива `Bonferroni` для контроля `FWER`.
`Holm` сортирует `p-value` и последовательно сравнивает их с порогами, которые становятся менее строгими по мере продвижения. За счёт этого процедура часто отклоняет больше гипотез при том же контроле `FWER`, чем `Bonferroni`. Типичная ошибка — путать `Holm` с `Benjamini–Hochberg`, который контролирует `FDR`, а не `FWER`.
15В A/B-тесте вы измеряете 15 метрик и объявляете победу, если хоть одна метрика имеет `p-value < 0.05`. Какой риск вы в первую очередь раздуваете?
A`FWER`: вероятность хотя бы одной ложной находки среди 15 метрик
B`FDR`: вероятность хотя бы одной ложной находки среди 15 метрик
CРиск ложной находки уменьшается, потому что метрик больше
D`Benjamini–Hochberg` автоматически применяется, раз метрик много
Ответ: Правило 'победа, если хоть где-то значимо' напрямую раздувает `FWER`.
Когда вы разрешаете любому из 15 тестов стать основанием для решения, вы фактически увеличиваете шанс случайной 'победы'. Это и есть рост `FWER`, то есть вероятности хотя бы одной ложной находки в семействе проверок. Типичная ошибка — думать, что раз каждый тест на 0.05, то общий риск тоже 0.05.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram