Q: В эксперименте вы заранее объявили 5 основных метрик и будете считать успехом, если хотя бы по одной `p-value < alpha`. Что происходит с общей вероятностью ложноположительного вывода и что обычно делают лучше?

Если успех = «хотя бы одна `p-value < alpha`» по нескольким метрикам, общий риск ложноположительного вывода (FWER) превышает `alpha`; лучше фиксировать одну основную метрику или контролировать множественные проверки. Когда вы делаете несколько проверок и выбираете любую значимую, шанс случайно получить хотя бы один ложный сигнал растёт. Поэтому общий уровень ошибки уже не равен исходному `alpha`, даже если метрики независимы. На практике заранее фиксируют одну основную метрику или применяют контроль множественных проверок (`Bonferroni`, `Holm`), чтобы ограничить общий риск ложноположительных выводов на заданном уровне.

Question 1

В эксперименте вы заранее объявили 5 основных метрик и будете считать успехом, если хотя бы по одной `p-value < alpha`. Что происходит с общей вероятностью ложноположительного вывода и что обычно делают лучше?

Accepted Answer

Если успех = «хотя бы одна `p-value < alpha`» по нескольким метрикам, общий риск ложноположительного вывода (FWER) превышает `alpha`; лучше фиксировать одну основную метрику или контролировать множественные проверки. Когда вы делаете несколько проверок и выбираете любую значимую, шанс случайно получить хотя бы один ложный сигнал растёт. Поэтому общий уровень ошибки уже не равен исходному `alpha`, даже если метрики независимы. На практике заранее фиксируют одну основную метрику или применяют контроль множественных проверок (`Bonferroni`, `Holm`), чтобы ограничить общий риск ложноположительных выводов на заданном уровне.

Question 2

Эксперимент завершился по плану, но `p-value > alpha`. Какое заключение наиболее корректно, если вы заранее планировали `MDE` и целевую мощность?

Accepted Answer

Если тест спланирован под `MDE` и заданную мощность, то `p-value > alpha` означает: эффект уровня `MDE` не подтвердился; это не доказательство нуля. Если эксперимент был спланирован на обнаружение эффекта размером `MDE` с целевой мощностью, то отсутствие значимости говорит, что такой эффект не подтвердился на данных. Однако это не доказывает нулевой эффект: реальный эффект может быть меньше `MDE` или зависеть от сегментов. Корректная интерпретация — связать результат с заранее заданным `MDE` и границами чувствительности теста. Поднимать уровень значимости до 50% или объявлять `SRM` без проверки баланса групп некорректно.

Question 3

Команда каждый день смотрит `p-value` и прекращает эксперимент, как только `p-value` ниже порога значимости, не используя поправки. Какой главный риск для уровня значимости?

Accepted Answer

Повторные проверки без корректного последовательного дизайна раздувают фактический уровень значимости. Если вы многократно смотрите на `p-value` и останавливаетесь при первом сигнале, вы увеличиваете шанс поймать случайное отклонение. В результате фактическая вероятность ложноположительного вывода становится выше целевого уровня значимости. Чтобы контролировать ошибку I рода, используют заранее заданные правила остановки и методы последовательного тестирования или фиксируют длительность теста.

Question 4

Команда хочет детектить относительный `MDE` = 5% в метрике конверсии. Сравните два продукта: базовая конверсия 1% и базовая конверсия 10%. При одинаковом относительном `MDE` где обычно нужен больший размер выборки и почему?

Accepted Answer

При фиксированном относительном `MDE` низкая базовая конверсия даёт очень маленький абсолютный эффект, поэтому требуется больший размер выборки. Относительный `MDE` в 5% означает, что абсолютное изменение равно базовой конверсии, умноженной на 0,05. При базовой конверсии 1% это всего 0,05 процентного пункта, а при 10% — 0,5 процентного пункта. Меньший абсолютный сдвиг труднее отличить от шума, поэтому для базовой конверсии 1% обычно нужен больший размер выборки при тех же уровне значимости и мощности.

Question 5

У вас два кандидата на основную метрику: конверсия и выручка на пользователя. При прочих равных какая метрика чаще требует больший размер выборки и почему?

Accepted Answer

Метрики с более высокой дисперсией обычно требуют большего размера выборки для заданных `alpha`, мощности и `MDE`. Конверсия ограничена интервалом [0;1] и часто имеет более стабильную дисперсию. Выручка на пользователя обычно имеет тяжёлые хвосты из-за редких крупных покупок, поэтому шум выше, и для тех же `alpha`, мощности и `MDE` обычно требуется больше данных и времени.

Размер выборки и мощность теста: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты