В эксперименте вы заранее объявили 5 основных метрик и будете считать успехом, если хотя бы по одной p-value < alpha. Что происходит с общей вероятностью ложноположительного вывода и что обычно делают лучше?

AОбщая вероятность ложноположительного вывода ниже alpha: лишние проверки усредняют шум и снижают итоговый риск
BОбщая вероятность равна alpha при независимых метриках: независимость сохраняет фиксированный уровень ошибки
CОбщая вероятность выше alpha: лучше зафиксировать одну основную метрику или скорректировать порог через Bonferroni
DОбщая вероятность зависит только от мощности теста, и при достаточной мощности поправка на alpha становится излишней
Правильный ответ. Если успех = «хотя бы одна p-value < alpha» по нескольким метрикам, общий риск ложноположительного вывода (FWER) превышает alpha; лучше фиксировать одну основную метрику или контролировать множественные проверки.

Разбор

Когда вы делаете несколько проверок и выбираете любую значимую, шанс случайно получить хотя бы один ложный сигнал растёт. Поэтому общий уровень ошибки уже не равен исходному alpha, даже если метрики независимы. На практике заранее фиксируют одну основную метрику или применяют контроль множественных проверок (Bonferroni, Holm), чтобы ограничить общий риск ложноположительных выводов на заданном уровне.

Проверь себя · 1/3разбор после ответа
Эксперимент по всей аудитории рассчитан на длительность 14 дней при заданных уровне значимости, мощности и MDE. Продакт хочет сделать столь же надёжный вывод по сегменту, который составляет 20% трафика. Что ожидаемо произойдёт с нужной длительностью для этого сегмента?
Тренировать A/B в Telegram

Ещё вопросы по теме «Размер выборки и мощность теста»