Sequential testing на собеседовании аналитика

Проверь себя · 1/3разбор после ответа

ARPU в контрольной группе равен 200, в тестовой — 210. Как корректно описать абсолютный и относительный эффект?

Что такое sequential testing

Sequential testing — это подход к анализу A/B-теста, при котором результаты проверяются многократно по мере накопления данных. В отличие от классического fixed-horizon подхода, где решение принимается один раз в конце теста, sequential testing позволяет остановить эксперимент раньше — если эффект достаточно большой или, наоборот, заведомо отсутствует.

На собеседовании эта тема проверяет глубину понимания статистики. Кандидат, который знает про sequential testing, демонстрирует, что работал с реальными ограничениями: бизнес не хочет ждать две недели, трафик дорогой, а решение нужно вчера.

Проблема раннего подглядывания

Классический тест рассчитан на одну проверку результатов. Если вы заглядываете в результаты каждый день и останавливаете тест, когда p-value опускается ниже 0.05, вероятность ложноположительного результата резко возрастает. При 5 проверках реальный alpha поднимается до 14%, при 10 — до 19%.

Это не теоретическая проблема. В большинстве компаний аналитики и менеджеры смотрят дашборды ежедневно. Без специальных методов каждый взгляд на результаты увеличивает вероятность ошибки. Sequential testing решает эту проблему, встраивая многократные проверки в дизайн эксперимента.

Peeking — одна из самых частых ловушек A/B-тестирования. Sequential testing превращает подглядывание из ошибки в инструмент, но требует строгого соблюдения правил.

Fixed-horizon vs sequential

Fixed-horizon. Размер выборки фиксируется до запуска. Результат проверяется один раз. Просто, понятно, легко объяснить бизнесу. Недостаток — нет гибкости: тест длится ровно столько, сколько запланировано, даже если эффект очевиден через два дня.

Sequential testing. Определяются точки проверки (looks). В каждой точке принимается решение: остановить тест (эффект обнаружен), остановить тест (эффекта нет) или продолжить. Преимущество — экономия времени и трафика при сильных эффектах. Недостаток — при слабых эффектах требует больше данных, чем fixed-horizon.

Практическое правило. Sequential testing выгоден, когда ожидаемый эффект неизвестен. Если вы уверены в MDE — fixed-horizon проще и эффективнее. Если бизнес хочет «посмотреть пораньше» — sequential testing единственный корректный способ это сделать.

Alpha spending

Alpha spending — это механизм распределения общего бюджета ошибки первого рода (alpha) между несколькими проверками. Суммарная вероятность ложноположительного результата остаётся на уровне 0.05, но тратится порциями.

O'Brien-Fleming. Консервативная стратегия: почти весь alpha бюджет приходится на последнюю проверку. Ранние остановки возможны только при очень сильном эффекте. На практике это означает, что первые проверки почти не тратят alpha.

Pocock. Равномерное распределение alpha между проверками. Порог значимости одинаков на каждом шаге. Проще для понимания, но финальный порог строже, чем в fixed-horizon тесте.

Alpha spending function (Lan-DeMets). Гибкий подход, позволяющий выбирать функцию расходования alpha. Не требует заранее фиксировать число проверок — alpha тратится как функция от доли набранных данных.

Когда применять sequential testing

Высокая стоимость трафика — каждый лишний день теста стоит денег, и ранняя остановка экономит ресурсы
Риск негативного эффекта — если изменение может навредить пользователям, важно обнаружить это быстро (futility stopping)
Неопределённость в размере эффекта — если MDE выбран консервативно, а реальный эффект может быть в разы больше
Культура подглядывания — если менеджеры всё равно смотрят результаты каждый день, лучше контролировать это статистически

Типичные вопросы на собеседовании

«Тест идёт три дня, p-value = 0.01. Можно ли остановить?» — только если используется sequential testing. При fixed-horizon — нет, это peeking
«Чем sequential testing отличается от обычного теста?» — многократные проверки с контролем alpha, возможность ранней остановки, но потенциально больший размер выборки
«Как sequential testing связан с alpha spending?» — alpha spending — конкретный механизм, обеспечивающий контроль ошибки первого рода при множественных проверках

На senior-собеседованиях могут попросить сравнить sequential testing с байесовским подходом к ранней остановке. Ключевое отличие: байесовский подход оперирует posterior probability и loss function, а sequential testing — p-value и alpha spending.

FAQ

Sequential testing всегда лучше fixed-horizon?

Нет. При слабых эффектах sequential testing требует больше данных из-за коррекции alpha. Если вы уверены в MDE и трафика достаточно — fixed-horizon проще, дешевле и легче объяснить стейкхолдерам. Sequential testing — инструмент для неопределённости, а не замена стандартного подхода.

Сколько проверок делать в sequential тесте?

Обычно 3-5 проверок с равными интервалами. Больше проверок — сильнее коррекция и выше максимальный размер выборки. Меньше — теряется гибкость. На практике интервал привязывают к бизнес-циклу: раз в неделю или при достижении определённой доли от максимальной выборки.

Можно ли остановить sequential тест по guardrail-метрике?

Да, но для каждой метрики нужен свой alpha spending план. Остановка по ухудшению guardrail (futility по основной метрике) — корректная практика. Важно зафиксировать правила остановки до запуска теста, иначе это снова превращается в субъективный peeking.

Смотрите также

Тренировать A/B в Telegram