Question 1

Какая пара определений наиболее корректно описывает `FWER` и `FDR` при множественных проверках гипотез?

Accepted Answer

`FWER` и `FDR` контролируют разные виды ошибок при множественных проверках: одну находку против доли среди значимых. `FWER` отвечает на вопрос, какова вероятность сделать хотя бы одну ложную находку в наборе тестов. `FDR` отвечает на другой вопрос: какая доля ложных находок ожидается среди всех результатов, объявленных значимыми. Частая путаница — думать, что `FDR=0.1` означает 10% шанс хотя бы одной ошибки, но это не так: это ожидаемая доля ошибок среди значимых.

Question 2

Вы применили поправку `Bonferroni` к 6 метрикам, и ни одна не стала значимой, хотя без поправки было 2 метрики с `p-value` ниже 0.05. Почему это ожидаемо?

Accepted Answer

Поправка `Bonferroni` снижает риск ложных находок, но часто снижает и мощность теста. При поправке `Bonferroni` вы используете порог `alpha/m`, поэтому часть эффектов, которые выглядели значимыми без коррекции, перестают проходить новый порог. Это цена за контроль общей вероятности ошибки I рода при множественных проверках. Типичная ошибка — ожидать, что коррекция «подтвердит» результаты, вместо того чтобы понимать компромисс между ложноположительными и ложноотрицательными выводами.

Question 3

Какой первый шаг в процедуре `Holm` для контроля семейной ошибки (`FWER`)?

Accepted Answer

Процедура `Holm` начинается с сортировки `p-value` по возрастанию и пошагового сравнения с меняющимися порогами. `Holm` — это step-down процедура: сначала проверяется самый маленький `p-value` на самом строгом пороге `alpha/m`, затем пороги становятся менее строгими. Если на каком-то шаге условие не выполняется, дальше уже не отклоняют гипотезы. Типичная ошибка — воспринимать `Holm` как один фиксированный порог для всех тестов, как в коррекции `Bonferroni`.

Question 4

Что означает контролировать FDR (доля ложных открытий среди отвергнутых гипотез) на уровне 0.1 в наборе гипотез?

Accepted Answer

FDR — это ожидаемая доля ложных находок среди отклонённых `H0`. Контроль FDR на уровне 0.1 означает, что среди объявленных значимыми результатов ожидаемая доля ложных не превышает 10%. Это утверждение про среднее по экспериментам, а не про конкретный набор отклонённых `H0`. FWER (вероятность хотя бы одной ошибки) — это другая, более строгая величина. Также неверно интерпретировать FDR как гарантию для каждой отдельной гипотезы.

Question 5

Вы проверяете эффект фичи на 5 сегментах и 2 платформах и планируете в презентации выбрать самые «успешные» результаты. Что разумнее всего считать семейством тестов для контроля `FWER` (вероятности хотя бы одной ошибки I рода)?

Accepted Answer

Семейство тестов определяется тем, какие проверки влияют на одно решение, а не тем, какие уже получились значимыми. Если вы планируете выбрать и показать лучшие сегменты и платформы, все эти сравнения участвуют в одном процессе отбора и образуют одно семейство. Тогда логично контролировать `FWER` или `FDR` по всему набору, чтобы учесть множественные сравнения. Брать в семейство только уже значимые проверки нельзя: это ровно тот отбор, против которого и защищает поправка. Зафиксировать «один важный сегмент» постфактум тоже нечестно, если по факту смотрели все.

Вопросы по теме «Множественные сравнения»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика