Множественные сравнения: вопросы для собеседования (часть 2)

Чем больше гипотез проверяешь, тем выше вероятность ложного открытия. Поправка Бонферрони, Benjamini-Hochberg, FWER vs FDR — методы контроля этой проблемы. На собеседовании спрашивают, почему нельзя просто проверить 20 сегментов и доложить о «статистически значимых» различиях без коррекции.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 610 из 20

6У вас два сценария: (1) критичное решение по безопасности, (2) поиск идей среди 50 метрик для следующего спринта. Какое сочетание контроля ошибок чаще всего разумно?
AВ обоих случаях использовать только `FDR`, потому что он всегда лучше
BДля безопасности контролировать `FWER`, а для скрининга идей — `FDR`
CВ обоих случаях не делать поправок, потому что `p-value` уже всё учитывает
DДля безопасности использовать `Benjamini–Hochberg`, а для идей — `Bonferroni`
Ответ: `FWER` обычно выбирают для высоких ставок, а `FDR` — для исследовательского скрининга.

При безопасности важно минимизировать риск любой ложной находки, поэтому контроль `FWER` подходит лучше. При скрининге большого числа гипотез часто важнее иметь больше мощности и контролировать долю ложных находок среди выбранных, поэтому используют `FDR`. Типичная ошибка — применять один и тот же уровень строгости к очень разным по цене ошибки задачам.

7Аналитик пробует 5 вариантов определения конверсии (разные окна) и выбирает тот, где `p-value` минимален. Как правильнее всего описать проблему?
AПроблемы нет: выбор определения по минимальному `p-value` делает вывод более точным
BЭто форма `multiple comparisons` и `p-hacking`: нужно фиксировать определение заранее или учитывать множественные проверки при интерпретации
CЭто автоматически означает, что `FDR` контролируется на уровне 0.05
DЭто допустимо только если затем применить `Bonferroni` к одному выбранному окну
Ответ: Выбор определения после просмотра результатов фактически увеличивает число проверок, то есть создаёт `multiple comparisons`.

Если вы попробовали несколько определений метрики и выбрали то, где результат лучше, вы повышаете шанс случайной находки. Даже если формально вы показываете один `p-value`, за ним стоит несколько попыток. Типичная защита — заранее фиксировать определение, либо явно маркировать анализ как исследовательский и подтверждать на новом запуске.

8Вы сделали множественные сравнения (`multiple comparisons`): 20 независимых проверок при `alpha = 0.05` и нашли одну метрику с `p-value = 0.04`. Что корректнее всего сказать про этот результат?
AРиск случайной 'значимости' выше, чем 0.05, поэтому нужен заранее заданный план или поправка на множественность
BЭффект доказан, потому что `p-value < 0.05`, и поправки не нужны
CЧем больше проверок, тем меньше шанс ложной находки
D`FWER` всегда равен 0.05 независимо от числа тестов
Ответ: При `multiple comparisons` вероятность хотя бы одной ложной находки растёт.

Если проверок много, даже при отсутствии реальных эффектов часть `p-value` будет меньше 0.05 просто случайно. Это означает рост шанса получить хотя бы одну ложную 'победу' в семействе тестов, то есть рост `FWER`. Типичная ошибка — трактовать один случайный `p-value` как подтверждённый эффект без учёта количества проверок.

9Система мониторинга каждый день проверяет 50 метрик и отправляет алерт при `p-value < 0.05`. Что поможет снизить число ложных алертов из-за множественных проверок, сохранив чувствительность?
AПоднять порог до `alpha = 0.2`, чтобы алерты были чаще и быстрее
BКонтролировать `FDR` для дневного набора проверок, например через `Benjamini–Hochberg`, и явно фиксировать семейство тестов
CОставить всё как есть: если `p-value < 0.05`, алерт всегда корректен
DОтключить все метрики кроме одной, чтобы не было `multiple comparisons`
Ответ: При большом числе ежедневных проверок полезно контролировать множественность, например через `FDR`.

Когда вы проверяете десятки метрик, шанс случайного `p-value < 0.05` в любой из них заметно возрастает, и алерты становятся шумными. Контроль `FDR` помогает держать долю ложных срабатываний среди поднятых алертов на приемлемом уровне. Типичная ошибка — интерпретировать каждое срабатывание как отдельное событие, забывая, что вы запускаете сразу много тестов ежедневно.

10Вы запустили A/B/C-тест: `control` и два варианта. Вы делаете два сравнения (вариант 1 vs `control`, вариант 2 vs `control`) и хотите ограничить риск ложной победы. Что корректнее всего сделать?
AПроверять оба сравнения на `alpha=0.05` без корректировки, потому что вариантов всего два
BСчитать значимым только то сравнение, где `p-value` меньше, а второе игнорировать
CПовысить `alpha`, чтобы быстрее найти победителя среди вариантов
DРассматривать это как `multiple comparisons` и применить поправку к двум `p-value`, например `Holm` или `Bonferroni`, либо заранее выбрать приоритетный вариант
Ответ: Два сравнения против `control` — это множественные проверки, и без поправки растёт шанс ложной победы.

Если вы объявляете победу, когда значим хотя бы один из двух вариантов, общий риск ошибки растёт по сравнению с одним тестом. Поправка (`Holm` или `Bonferroni`) делает пороги строже и помогает контролировать `FWER` для этого семейства сравнений. Альтернатива — заранее выбрать приоритетный вариант и тестировать только его, а второй оставить исследовательским. Типичная ошибка — игнорировать факт, что само наличие двух попыток уже увеличивает шанс случайной 'победы'.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей