В эксперименте вы заранее объявили 5 основных метрик и будете считать успехом, если хотя бы по одной p-value < alpha. Что происходит с общей вероятностью ложноположительного вывода и что обычно делают лучше?
AОбщая вероятность ложноположительного вывода ниже
alpha: лишние проверки усредняют шум и снижают итоговый рискBОбщая вероятность равна
alpha при независимых метриках: независимость сохраняет фиксированный уровень ошибкиCОбщая вероятность выше
alpha: лучше зафиксировать одну основную метрику или скорректировать порог через BonferroniDОбщая вероятность зависит только от мощности теста, и при достаточной мощности поправка на
alpha становится излишнейПравильный ответ. Если успех = «хотя бы одна
p-value < alpha» по нескольким метрикам, общий риск ложноположительного вывода (FWER) превышает alpha; лучше фиксировать одну основную метрику или контролировать множественные проверки.Разбор
Когда вы делаете несколько проверок и выбираете любую значимую, шанс случайно получить хотя бы один ложный сигнал растёт. Поэтому общий уровень ошибки уже не равен исходному alpha, даже если метрики независимы. На практике заранее фиксируют одну основную метрику или применяют контроль множественных проверок (Bonferroni, Holm), чтобы ограничить общий риск ложноположительных выводов на заданном уровне.
Проверь себя · 1/3разбор после ответа
Эксперимент по всей аудитории рассчитан на длительность 14 дней при заданных уровне значимости, мощности и
MDE. Продакт хочет сделать столь же надёжный вывод по сегменту, который составляет 20% трафика. Что ожидаемо произойдёт с нужной длительностью для этого сегмента?Ещё вопросы по теме «Размер выборки и мощность теста»
- Какое утверждение про `alpha`, `beta` и `power` верное?
- Вы планируете тест с фиксированными уровнем значимости и мощностью и решили уменьшить `MDE` с 5% до 2%. Что произойдёт с требуемыми размером выборки и длительностью теста при том же трафике?
- Команда хочет детектить относительный `MDE` = 5% в метрике конверсии. Сравните два продукта: базовая конверсия 1% и базовая конверсия 10%. При одинаковом относительном `MDE` где обычно нужен больший размер выборки и почему?
- Калькулятор размера выборки дал требование `N_treat = 20000` и `N_control = 20000`. В эксперимент ежедневно попадает 5000 новых пользователей при разбиении 50/50. Какова минимальная длительность теста в днях при стабильном трафике?
- Вы держите `MDE` и `power` фиксированными, но хотите снизить `alpha` с 5% до 1%. Что в среднем произойдёт с требуемым размером выборки?
- Все вопросы по «Размер выборки и мощность теста» →