Q: Система мониторинга каждый день проверяет 50 метрик и отправляет алерт при `p-value < 0.05`. Что поможет снизить число ложных алертов из-за множественных проверок, сохранив чувствительность?

При большом числе ежедневных проверок полезно контролировать множественность, например через `FDR`. Когда вы проверяете десятки метрик, шанс случайного `p-value < 0.05` в любой из них заметно возрастает, и алерты становятся шумными. Контроль `FDR` помогает держать долю ложных срабатываний среди поднятых алертов на приемлемом уровне. Типичная ошибка — интерпретировать каждое срабатывание как отдельное событие, забывая, что вы запускаете сразу много тестов ежедневно.

Q: Вы запустили A/B/C-тест: `control` и два варианта. Вы делаете два сравнения (вариант 1 vs `control`, вариант 2 vs `control`) и хотите ограничить риск ложной победы. Что корректнее всего сделать?

Два сравнения против `control` — это множественные проверки, и без поправки растёт шанс ложной победы. Если вы объявляете победу, когда значим хотя бы один из двух вариантов, общий риск ошибки растёт по сравнению с одним тестом. Поправка (`Holm` или `Bonferroni`) делает пороги строже и помогает контролировать `FWER` для этого семейства сравнений. Альтернатива — заранее выбрать приоритетный вариант и тестировать только его, а второй оставить исследовательским. Типичная ошибка — игнорировать факт, что само наличие двух попыток уже увеличивает шанс случайной 'победы'.

Question 1

У вас два сценария: (1) критичное решение по безопасности, (2) поиск идей среди 50 метрик для следующего спринта. Какое сочетание контроля ошибок чаще всего разумно?

Accepted Answer

`FWER` обычно выбирают для высоких ставок, а `FDR` — для исследовательского скрининга. При безопасности важно минимизировать риск любой ложной находки, поэтому контроль `FWER` подходит лучше. При скрининге большого числа гипотез часто важнее иметь больше мощности и контролировать долю ложных находок среди выбранных, поэтому используют `FDR`. Типичная ошибка — применять один и тот же уровень строгости к очень разным по цене ошибки задачам.

Question 2

Аналитик пробует 5 вариантов определения конверсии (разные окна) и выбирает тот, где `p-value` минимален. Как правильнее всего описать проблему?

Accepted Answer

Выбор определения после просмотра результатов фактически увеличивает число проверок, то есть создаёт `multiple comparisons`. Если вы попробовали несколько определений метрики и выбрали то, где результат лучше, вы повышаете шанс случайной находки. Даже если формально вы показываете один `p-value`, за ним стоит несколько попыток. Типичная защита — заранее фиксировать определение, либо явно маркировать анализ как исследовательский и подтверждать на новом запуске.

Question 3

Вы сделали множественные сравнения (`multiple comparisons`): 20 независимых проверок при `alpha = 0.05` и нашли одну метрику с `p-value = 0.04`. Что корректнее всего сказать про этот результат?

Accepted Answer

При `multiple comparisons` вероятность хотя бы одной ложной находки растёт. Если проверок много, даже при отсутствии реальных эффектов часть `p-value` будет меньше 0.05 просто случайно. Это означает рост шанса получить хотя бы одну ложную 'победу' в семействе тестов, то есть рост `FWER`. Типичная ошибка — трактовать один случайный `p-value` как подтверждённый эффект без учёта количества проверок.

Question 4

Система мониторинга каждый день проверяет 50 метрик и отправляет алерт при `p-value < 0.05`. Что поможет снизить число ложных алертов из-за множественных проверок, сохранив чувствительность?

Accepted Answer

При большом числе ежедневных проверок полезно контролировать множественность, например через `FDR`. Когда вы проверяете десятки метрик, шанс случайного `p-value < 0.05` в любой из них заметно возрастает, и алерты становятся шумными. Контроль `FDR` помогает держать долю ложных срабатываний среди поднятых алертов на приемлемом уровне. Типичная ошибка — интерпретировать каждое срабатывание как отдельное событие, забывая, что вы запускаете сразу много тестов ежедневно.

Question 5

Вы запустили A/B/C-тест: `control` и два варианта. Вы делаете два сравнения (вариант 1 vs `control`, вариант 2 vs `control`) и хотите ограничить риск ложной победы. Что корректнее всего сделать?

Accepted Answer

Два сравнения против `control` — это множественные проверки, и без поправки растёт шанс ложной победы. Если вы объявляете победу, когда значим хотя бы один из двух вариантов, общий риск ошибки растёт по сравнению с одним тестом. Поправка (`Holm` или `Bonferroni`) делает пороги строже и помогает контролировать `FWER` для этого семейства сравнений. Альтернатива — заранее выбрать приоритетный вариант и тестировать только его, а второй оставить исследовательским. Типичная ошибка — игнорировать факт, что само наличие двух попыток уже увеличивает шанс случайной 'победы'.

Множественные сравнения: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика