Q: В тесте есть корректная рандомизация, но менеджер каждый день проверяет `p-value` и останавливает при `p-value < alpha`. Почему проблема всё равно остаётся?

Рандомизация делает группы сопоставимыми, но не исправляет нарушение правила остановки: досрочная остановка повышает ошибку I рода. Случайное распределение делает группы сопоставимыми и поддерживает причинный вывод. Но если правило остановки зависит от промежуточных результатов, стандартная проверка больше не гарантирует риск ложноположительного результата на уровне `alpha`. Поэтому при частых проверках нужен либо фиксированный горизонт наблюдения, либо последовательное тестирование с распределением `alpha`. Варианты про 50/50 и про невозможность считать `lift` ошибочны: рандомизация не запрещает оценивать эффект, она лишь не защищает от подглядывания.

Q: Команда говорит: будем крутить эксперимент, пока не получим `p-value < alpha`, и тогда сразу запустим в прод. Что лучше всего ответить?

«Крутить до `p-value < alpha`» — это подсматривание в данные с произвольной остановкой; оно повышает вероятность ложноположительного вывода, нужен фиксированный горизонт или последовательный дизайн. Такой подход подгоняет правило принятия решения под данные и ломает интерпретацию значимости. В результате вы можете принять шум за эффект и переоценить размер эффекта при остановке на удачный момент. Безопасная альтернатива — фиксированный горизонт наблюдений или корректный последовательный тест с заранее заданным расходом `alpha`. Уменьшение `alpha` или ограничение случая «тест лучше контроля» проблему не решает.

Q: На что в первую очередь нацелена процедура `alpha spending`?

`Alpha spending` удерживает суммарную вероятность ошибки I рода на уровне заданного `alpha` при нескольких промежуточных проверках. При каждой промежуточной проверке вы расходуете часть «бюджета» `alpha`. Если бюджет распределён заранее, суммарная вероятность ложноположительного решения по нулевой гипотезе остаётся под контролем. Это позволяет делать несколько промежуточных просмотров без превращения процесса в подгонку под значимость.

Question 1

Что такое `alpha spending` в последовательном тестировании?

Accepted Answer

`Alpha spending` распределяет общий риск ошибки I рода между несколькими промежуточными проверками. Если вы смотрите данные несколько раз, каждая проверка «тратит» часть общего уровня `alpha`. `Alpha spending` задаёт, сколько `alpha` можно использовать на каждой промежуточной проверке, чтобы суммарно не превысить заданный уровень. Благодаря этому возможна ранняя остановка с контролем доли ложноположительных результатов.

Question 2

Почему в корректном последовательном тестировании порог для ранней остановки обычно более строгий, чем в конце эксперимента?

Accepted Answer

Ранние границы делают строже, чтобы при нескольких промежуточных проверках суммарно сохранить заданный уровень `alpha` и контроль ошибки I рода. Чем раньше вы пытаетесь остановить тест, тем выше шанс случайного всплеска метрики. Если применять одинаковый порог на каждой неделе, суммарная вероятность ложноположительного результата станет больше, чем `alpha`. Поэтому в последовательном тестировании ранние границы требуют более сильного сигнала, а к концу становятся ближе к обычному уровню.

Question 3

В тесте есть корректная рандомизация, но менеджер каждый день проверяет `p-value` и останавливает при `p-value < alpha`. Почему проблема всё равно остаётся?

Accepted Answer

Рандомизация делает группы сопоставимыми, но не исправляет нарушение правила остановки: досрочная остановка повышает ошибку I рода. Случайное распределение делает группы сопоставимыми и поддерживает причинный вывод. Но если правило остановки зависит от промежуточных результатов, стандартная проверка больше не гарантирует риск ложноположительного результата на уровне `alpha`. Поэтому при частых проверках нужен либо фиксированный горизонт наблюдения, либо последовательное тестирование с распределением `alpha`. Варианты про 50/50 и про невозможность считать `lift` ошибочны: рандомизация не запрещает оценивать эффект, она лишь не защищает от подглядывания.

Question 4

Команда говорит: будем крутить эксперимент, пока не получим `p-value < alpha`, и тогда сразу запустим в прод. Что лучше всего ответить?

Accepted Answer

«Крутить до `p-value < alpha`» — это подсматривание в данные с произвольной остановкой; оно повышает вероятность ложноположительного вывода, нужен фиксированный горизонт или последовательный дизайн. Такой подход подгоняет правило принятия решения под данные и ломает интерпретацию значимости. В результате вы можете принять шум за эффект и переоценить размер эффекта при остановке на удачный момент. Безопасная альтернатива — фиксированный горизонт наблюдений или корректный последовательный тест с заранее заданным расходом `alpha`. Уменьшение `alpha` или ограничение случая «тест лучше контроля» проблему не решает.

Question 5

На что в первую очередь нацелена процедура `alpha spending`?

Accepted Answer

`Alpha spending` удерживает суммарную вероятность ошибки I рода на уровне заданного `alpha` при нескольких промежуточных проверках. При каждой промежуточной проверке вы расходуете часть «бюджета» `alpha`. Если бюджет распределён заранее, суммарная вероятность ложноположительного решения по нулевой гипотезе остаётся под контролем. Это позволяет делать несколько промежуточных просмотров без превращения процесса в подгонку под значимость.

Секвенциальное тестирование: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты