Секвенциальное тестирование: вопросы для собеседования (часть 2)

Подглядывание в результаты теста до его окончания (peeking) завышает вероятность ложноположительного результата. Секвенциальные методы — always-valid p-values, mixture sequential probability ratio test — позволяют проверять результаты в любой момент без инфляции ошибки. На собеседовании это показывает продвинутый уровень кандидата.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСнижение дисперсии и CUPED

Вопросы 610 из 20

6Что такое `alpha spending` в `sequential testing`?
AПлан распределения общего уровня `alpha` между несколькими `interim analysis`, чтобы контролировать `Type I error`.
BМетод выбора метрики, которая лучше всего реагирует на изменение
CПравило, которое запрещает смотреть на результаты до конца эксперимента
DПлан распределения общего уровня `alpha` между несколькими `interim analysis`, чтобы контролировать `Type I error`
Ответ: `Alpha spending` распределяет общий риск `Type I error` между несколькими промежуточными проверками.

Если вы смотрите данные несколько раз, каждая проверка «тратит» часть общего уровня `alpha`. `Alpha spending` задаёт, сколько `alpha` можно использовать на каждом `interim analysis`, чтобы суммарно не превысить заданный `alpha`. Благодаря этому можно делать раннюю остановку и при этом контролировать `false positive`.

7Почему в корректном `sequential testing` порог для ранней остановки обычно более строгий, чем в конце эксперимента?
AЧтобы при нескольких `interim analysis` суммарно сохранить заданный `alpha` и контроль `Type I error`
BПотому что в начале эксперимента `effect size` всегда меньше, чем в конце
CПотому что `randomization` «заканчивается» только в финале, а до этого не работает
DПотому что метрика в `control` считается позже, чем в `treatment`
Ответ: Ранние границы делают строже, чтобы при нескольких `interim analysis` суммарно сохранить заданный `alpha` и контроль `Type I error`.

Чем раньше вы пытаетесь остановить тест, тем выше шанс случайного всплеска метрики. Если применять одинаковый порог на каждой неделе, суммарная вероятность `false positive` станет больше, чем `alpha`. Поэтому в `sequential testing` ранние границы требуют более сильного сигнала, а к концу становятся ближе к обычному уровню.

8В тесте есть корректная `randomization`, но менеджер каждый день проверяет `p-value` и останавливает при `p-value < alpha`. Почему проблема всё равно остаётся?
A`Randomization` делает любые проверки безопасными, поэтому проблемы нет
BПроблема только в том, что размер `control` и `treatment` может быть не ровно 50/50
CПроблема в том, что `lift` нельзя считать на рандомизированных данных
D`Randomization` не исправляет нарушение `stopping rule`: `peeking` с `optional stopping` повышает `Type I error` и `false positive`
Ответ: `Randomization` делает группы сопоставимыми, но не исправляет нарушение `stopping rule`: `optional stopping` повышает `Type I error`.

Случайное распределение делает группы сопоставимыми и поддерживает `causal inference`. Но если правило остановки зависит от промежуточных результатов, стандартная проверка больше не гарантирует риск `false positive` на уровне `alpha`. Поэтому при частых проверках нужен либо `fixed horizon`, либо `sequential testing` с `alpha spending`.

9Команда говорит: будем крутить эксперимент, пока не получим `p-value < alpha`, и тогда сразу запустим в прод. Что лучше всего ответить?
AЭто отличная стратегия, потому что она всегда уменьшает `false positive`
BЭто допустимо, если `alpha` заранее выбрали маленьким, например `alpha = 0.01`
CЭто работает только если `treatment` лучше `control`, тогда `Type I error` не растёт
DЭто нарушение `stopping rule`: нужен `fixed horizon` или заранее спланированный `sequential testing` с `alpha spending`.
Ответ: «Крутить до `p-value < alpha`» — это `optional stopping`, который повышает `false positive`; нужен `fixed horizon` или корректный sequential-дизайн.

Такой подход подгоняет правило принятия решения под данные и ломает интерпретацию значимости. В результате вы можете принять шум за эффект и переоценить `effect size`. Безопасная альтернатива — `fixed horizon` или корректный `sequential testing` с `alpha spending`.

10На что в первую очередь нацелено `alpha spending`?
AНа удержание суммарного `Type I error` на уровне заданного `alpha` при нескольких `interim analysis`
BНа обеспечение строго 50/50 распределения пользователей между `control` и `treatment`
CНа гарантию, что `lift` будет положительным при достаточном времени
DНа увеличение `power` до `power = 1` независимо от эффекта
Ответ: `Alpha spending` удерживает суммарный `Type I error` на уровне заданного `alpha` при нескольких проверках.

При каждом `interim analysis` вы используете часть «бюджета» `alpha`. Если бюджет распределён заранее, вероятность ложноположительного решения по `H0` остаётся контролируемой. Это позволяет делать несколько просмотров без превращения процесса в `p-hacking`.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСнижение дисперсии и CUPED