Вопросы по теме «Множественные сравнения»

Чем больше гипотез проверяешь, тем выше вероятность ложного открытия. Поправка Бонферрони, Benjamini-Hochberg, FWER vs FDR — методы контроля этой проблемы. На собеседовании спрашивают, почему нельзя просто проверить 20 сегментов и доложить о «статистически значимых» различиях без коррекции.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 15 из 20

1Какая пара определений наиболее корректно описывает `FWER` и `FDR` при множественных проверках?
A`FWER` — ожидаемая доля ложных находок среди значимых, `FDR` — вероятность хотя бы одной ложной находки
B`FWER` — вероятность хотя бы одной ложной находки в семействе тестов, `FDR` — ожидаемая доля ложных находок среди отклонённых `H0`
C`FWER` — средний `p-value`, `FDR` — медианный `p-value`
D`FDR` применяется только для одного теста, а `FWER` — только для сегментов
Ответ: `FWER` и `FDR` контролируют разные виды ошибок при множественных проверках.

`FWER` отвечает на вопрос, какова вероятность сделать хотя бы одну ложную находку в наборе тестов. `FDR` отвечает на другой вопрос: какая доля ложных находок ожидается среди всех результатов, которые вы объявили значимыми. Частая путаница — думать, что `FDR=0.1` означает 10% шанс хотя бы одной ошибки, но это не так.

2Вы применили `Bonferroni` к 6 метрикам, и ни одна не стала значимой, хотя без поправки было 2 метрики с `p-value < 0.05`. Почему это ожидаемо?
A`Bonferroni` делает порог мягче, поэтому значимых должно стать больше
B`Bonferroni` делает порог строже для контроля `FWER`, поэтому значимых может стать меньше, включая истинные эффекты
C`Bonferroni` меняет знак эффекта, поэтому `p-value` перестают иметь смысл
DЭто означает, что в данных точно баг, потому что поправки не могут менять значимость
Ответ: `Bonferroni` снижает риск ложных находок, но часто снижает и мощность.

При `Bonferroni` вы используете порог `alpha/m`, поэтому часть эффектов, которые выглядели значимыми без коррекции, перестают проходить новый порог. Это цена за контроль `FWER` при множественных проверках. Типичная ошибка — ожидать, что коррекция 'подтвердит' результаты, вместо того чтобы понимать компромисс между ложноположительными и ложноотрицательными выводами.

3Какой первый шаг в процедуре `Holm` для контроля `FWER`?
AОтсортировать `p-value` по убыванию и начать с самого большого
BСравнить каждый `p-value` с одним порогом `alpha/m` как в `Bonferroni`
CОтсортировать `p-value` по возрастанию и сравнить минимальный `p-value` с `alpha/m`, затем двигаться дальше пошагово
DСложить все `p-value` и сравнить сумму с `alpha`
Ответ: `Holm` начинается с сортировки `p-value` и пошаговых сравнений с меняющимися порогами.

`Holm` — это step-down процедура: сначала проверяется самая маленькая `p-value` на самом строгом пороге, затем пороги становятся менее строгими. Если на каком-то шаге условие не выполняется, дальше уже не отклоняют гипотезы. Типичная ошибка — воспринимать `Holm` как один фиксированный порог для всех тестов.

4Что означает контролировать `FDR` на уровне 0.1 в наборе гипотез?
AВероятность хотя бы одной ложной находки равна 10%
BРовно 10% всех проверок обязательно окажутся ложными
CКаждая отдельная гипотеза имеет 10% шанс быть ложной
DВ среднем среди отклонённых `H0` доля ложных находок не превышает 10%
Ответ: `FDR` — это ожидаемая доля ложных находок среди отклонённых `H0`.

Контроль `FDR=0.1` означает, что если вы объявили некоторое число результатов значимыми, то ожидаемая доля ложных среди них ограничена 10%. Это не говорит напрямую о вероятности хотя бы одной ошибки, как `FWER`. Типичная путаница — интерпретировать `FDR` как гарантию для каждой отдельной гипотезы.

5Вы проверяете эффект фичи на 5 сегментах и 2 платформах и планируете в презентации выбрать самые 'успешные' результаты. Что разумнее всего считать семейством тестов для контроля `FWER`?
AВсе 10 проверок, потому что вы будете интерпретировать их совместно в одном решении
BТолько те проверки, где `p-value` уже меньше 0.05
CТолько один сегмент, который вы считаете самым важным, даже если выберете другой по результату
DТолько проверки на одной платформе, потому что платформы независимы по смыслу
Ответ: Семейство тестов определяется тем, какие проверки влияют на одно решение, а не тем, какие уже получились значимыми.

Если вы планируете выбрать и показать лучшие сегменты и платформы, то все эти сравнения участвуют в одном процессе отбора и образуют одно семейство. Тогда логично контролировать `FWER` или `FDR` по всему набору, чтобы учесть `multiple comparisons`. Типичная ошибка — сначала посмотреть все результаты, а потом объявить, что 'мы тестировали только вот эти два', игнорируя остальные попытки.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей