В A/B-тесте вы измеряете 15 метрик и объявляете победу, если хоть одна метрика имеет `p-value

Question

В A/B-тесте вы измеряете 15 метрик и объявляете победу, если хоть одна метрика имеет `p-value < 0.05`. Какой риск вы в первую очередь раздуваете?

Карьерник · Accepted Answer

Правильный ответ: `FWER`: вероятность хотя бы одной ложной находки среди 15 проверенных метрик при истинной `H0` для каждой. Правило 'победа, если хоть где-то значимо' напрямую раздувает `FWER`. Когда вы объявляете победу при условии «хотя бы одна из 15 метрик имеет `p-value < 0.05`», вы прямо контролируете противоположное событию ошибки `FWER` (Family-Wise Error Rate) — вероятность хотя бы одной ложной находки в семействе. При независимых метриках и истинной `H0` вероятность хоть где-то «зацепиться» оценивается как `1 - 0.95^15 ≈ 0.54`. `FDR` (`False Discovery Rate`) — другая величина, ожидаемая доля ошибок среди отвергнутых, и контролируется поправкой `Benjamini–Hochberg`, но она не применяется сама по себе. Риск ложной находки от увеличения числа метрик растёт, а не уменьшается.

В A/B-тесте вы измеряете 15 метрик и объявляете победу, если хоть одна метрика имеет `p-value < 0.05`. Какой риск вы в первую очередь раздуваете?

Разбор

Ещё вопросы по теме «Множественные сравнения»

В A/B-тесте вы измеряете 15 метрик и объявляете победу, если хоть одна метрика имеет p-value < 0.05. Какой риск вы в первую очередь раздуваете?

Разбор

Ещё вопросы по теме «Множественные сравнения»

В A/B-тесте вы измеряете 15 метрик и объявляете победу, если хоть одна метрика имеет `p-value < 0.05`. Какой риск вы в первую очередь раздуваете?