Множественное тестирование: вопросы для собеседования (часть 2)
Когда в эксперименте несколько вариантов или метрик, вероятность ложноположительного результата растёт. Поправка Бонферрони, FDR, Holm — методы контроля ошибки множественного сравнения. На собеседовании просят объяснить, почему нельзя просто запустить тест с пятью вариантами и выбрать лучший по p-value.
Вопросы 6–10 из 20
6Что описывает контроль `FDR` в процедурах вроде `Benjamini–Hochberg`?
AВероятность хотя бы одного `false positives` среди всех тестов.
BВероятность того, что конкретный найденный эффект ложный.
CСредний уровень `alpha` по всем тестам.
DОжидаемую долю `false positives` среди отклонённых гипотез (объявленных значимыми).
Ответ: `FDR` контролирует ожидаемую долю ложных находок среди всех объявленных значимыми результатов.
Это другой критерий, чем `family-wise error`: он допускает, что некоторые находки могут оказаться ложными, но ограничивает их долю в среднем. Такой подход часто применяют в поисковом анализе, когда проверок много. При этом важно помнить, что `FDR` не гарантирует безошибочность каждой отдельной находки.
7Команда сравнивает 8 вариантов с контролем и для каждого теста использует `alpha` 0.05 без коррекции. Что происходит с вероятностью получить хотя бы один `false positives` среди всех сравнений?
AОна остаётся равной 0.05, потому что `alpha` фиксирован.
BОна уменьшается, потому что вариантов больше.
CОна увеличивается из-за `multiple comparisons`.
DОна влияет только на размер эффекта, но не на вероятность ошибок.
Ответ: Чем больше проверок на одном `alpha`, тем выше шанс случайно получить хотя бы одну значимость, то есть `false positives`.
Каждый отдельный тест на `alpha` 0.05 допускает ошибку первого рода с некоторой вероятностью. Когда тестов много, появляется больше «попыток» случайно превысить порог. Поэтому общий риск ложной находки растёт и требует контроля через корректировки.
8Какое утверждение верно про коррекцию `Bonferroni` при `multiple comparisons`?
AОна контролирует `FDR`, уменьшая ожидаемую долю ложных открытий.
BОна контролирует `family-wise error`, сравнивая каждую проверку с порогом `alpha`, делённым на число проверок.
CОна работает только при независимых тестах, иначе становится некорректной.
DОна повышает `alpha` для каждого теста, чтобы увеличить мощность.
Ответ: `Bonferroni` защищает от `multiple comparisons`, делая критерий для каждой проверки более строгим и контролируя `family-wise error`.
Идея проста: если проверок несколько, то для каждой проверки ставят более строгий порог, чтобы общий риск ошибки был ограничен. Это делает метод надёжным, но часто консервативным. Поэтому при большом числе проверок `Bonferroni` может сильно снижать мощность.
9Вы запускаете `A/B/n`-эксперимент: контроль и 3 варианта интерфейса. Что принципиально меняется по сравнению с `A/B` в части риска `false positives`, если проверять каждое сравнение на `alpha` 0.05 без коррекции?
AВозникает проблема `multiple comparisons`: общий шанс получить хотя бы один `false positives` растёт, поэтому нужен план сравнения и коррекция.
BНичего: можно тестировать каждую пару на том же `alpha` и трактовать результаты так же, как в `A/B`.
CРиск `false positives` снижается, потому что трафик делится на большее число вариантов.
DНужно сравнивать только варианты между собой, а контроль не использовать.
Ответ: В `A/B/n` число проверок обычно больше, поэтому без коррекции растёт вероятность `false positives` из-за `multiple comparisons`.
В `A/B` часто проверяют одну основную гипотезу, а в `A/B/n` появляется несколько сравнений, например каждый вариант против контроля. Если каждое сравнение делать на одном и том же `alpha`, общий шанс случайно увидеть значимость хотя бы где-то становится выше. Поэтому важно заранее определить, какие сравнения входят в одну семью, и применять подходящую коррекцию.
10Чем процедура `Holm` чаще всего отличается от `Bonferroni`, если цель та же — контроль `family-wise error` (суммарная ошибка первого рода)?
A`Holm` использует пошаговый подход и обычно менее консервативна, сохраняя контроль `family-wise error` (суммарная ошибка первого рода).
B`Holm` всегда более консервативна, чем `Bonferroni`, поэтому её выбирают реже.
C`Holm` контролирует только `FDR`, а не `family-wise error` (суммарная ошибка первого рода).
D`Holm` применима только к `A/B/n`, но не к нескольким метрикам.
Ответ: `Holm` — пошаговая альтернатива `Bonferroni`, которая обычно даёт больше мощности при контроле `family-wise error` (суммарная ошибка первого рода).
В практике `Holm` часто предпочитают, когда нужна строгая защита, но хочется чуть меньше потерь мощности, чем у `Bonferroni`. Процедура упорядочивает проверки и последовательно применяет пороги. Цель остаётся той же: ограничить вероятность хотя бы одного `false positives` в семье.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram