В эксперименте вы заранее объявили 5 primary metrics и будете считать успехом, если хотя бы по одной p-value < alpha. Что происходит с общей вероятностью ложноположительного вывода и что обычно делают лучше?
AОбщая вероятность ложноположительного вывода становится меньше
alpha, потому что метрик большеBОбщая вероятность остается ровно
alpha, если метрики независимыCОбщая вероятность становится выше
alpha, поэтому лучше выбрать одну primary metric или скорректировать alpha (например, Bonferroni/Holm).DОбщая вероятность растет только если
power меньше 50%Правильный ответ. Если успех = «хотя бы одна
p-value < alpha» по нескольким метрикам, то общий риск ложноположительного вывода (FWER) превышает alpha; лучше фиксировать одну primary metric или контролировать множественные проверки.Разбор
Когда вы делаете несколько проверок и выбираете любую значимую, шанс случайно получить хотя бы один ложный сигнал растет. Поэтому общий уровень ошибки уже не равен исходному alpha. На практике заранее фиксируют одну primary metric или применяют контроль множественных проверок, например Bonferroni, чтобы ограничить общий риск ложноположительных выводов.
Проверь себя · 1/3разбор после ответа
Вы держите
MDE и power фиксированными, но хотите снизить alpha с 5% до 1%. Что в среднем произойдет с требуемым sample size?Ещё вопросы по теме «Размер выборки и мощность теста»
- Какое утверждение про `alpha`, `beta` и `power` верное?
- Вы планируете тест с фиксированными `alpha` и `power` и решили уменьшить `MDE` с 5% до 2%. Что произойдет с требуемыми `sample size` и `test duration` при том же трафике?
- Команда хочет детектить относительный `MDE` = 5% в метрике `conversion rate`. Сравните два продукта: `baseline rate` 1% и `baseline rate` 10%. При одинаковом относительном `MDE` где обычно нужен больший `sample size` и почему?
- Калькулятор дал требование `N_treat = 20000` и `N_control = 20000` по `user_id`. В эксперимент ежедневно попадает 5000 новых `user_id`, разбиение `50/50`. Какая минимальная `test duration` в днях, если трафик стабилен?
- Вы держите `MDE` и `power` фиксированными, но хотите снизить `alpha` с 5% до 1%. Что в среднем произойдет с требуемым `sample size`?
- Все вопросы по «Размер выборки и мощность теста» →