Вопросы по теме «Секвенциальное тестирование»

Подглядывание в результаты теста до его окончания (peeking) завышает вероятность ложноположительного результата. Секвенциальные методы — always-valid p-values, mixture sequential probability ratio test — позволяют проверять результаты в любой момент без инфляции ошибки. На собеседовании это показывает продвинутый уровень кандидата.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСнижение дисперсии и CUPED

Вопросы 15 из 20

1У вас нет инфраструктуры для `sequential testing`, но команда хочет минимизировать риски от `peeking`. Какой подход самый безопасный и простой?
AЗадать `fixed horizon` и делать один финальный анализ, не останавливая тест по промежуточным `p-value`
BПоставить `alpha = 0.2`, чтобы быстрее увидеть значимость и меньше подглядывать
CСмотреть метрику каждые 2 часа и останавливать при первом улучшении `lift`
DЗапускать тест только на выходных, чтобы снизить `Type I error`
Ответ: Самый простой способ избежать проблемы `peeking` — `fixed horizon` и один финальный анализ; ежедневно можно мониторить только `guardrail` (защитная метрика) и sanity-checkи.

Вы заранее задаёте длительность теста и критерий решения, а затем оцениваете результат один раз в конце. Это сохраняет стандартную интерпретацию `p-value` и контроль `Type I error`. Если нужен ежедневный контроль качества, можно мониторить `guardrail` (защитная метрика) метрики, но не менять решение по основной метрике до финала.

2Что лучше всего описывает `stopping rule` в контексте `sequential testing`?
AЭто правило, по которому распределяют пользователей между `control` и `treatment`
BЭто заранее зафиксированный критерий, когда останавливаем тест и как принимаем решение по `H0`
CЭто способ посчитать `lift` без данных, используя прошлые тесты
DЭто решение остановить тест без заранее зафиксированных критериев и правил интерпретации.
Ответ: Правильный `stopping rule` заранее определяет условия остановки и сохраняет корректность вывода по `H0`.

Если команда планирует промежуточные просмотры, нужно до запуска зафиксировать частоту `interim analysis` и условия остановки. Это может быть остановка по границам для `p-value` или по порогу эффекта, но правила должны быть заранее. Так снижается риск `peeking` и `переобучение на шуме`, а `alpha spending` помогает контролировать `Type I error`.

3Команда хочет ежедневно смотреть результаты, чтобы понимать, что «тест в порядке», но решения по эффекту принимать только по финалу. Как лучше организовать процесс, чтобы не скатиться в `peeking` с `optional stopping`?
AКаждый день менять целевую метрику на ту, где `lift` выглядит лучше всего
BКаждый день пересчитывать `alpha` и выбирать порог «по ситуации»
CОстанавливать тест в тот день, когда `lift` достиг локального максимума
DЗаранее зафиксировать `fixed horizon` и правила решения по основной метрике, а ежедневный мониторинг ограничить `guardrail` (защитная метрика) и sanity-checkами без раннего объявления победы по `p-value`.
Ответ: Разделяйте мониторинг и решение: `fixed horizon`/`stopping rule` для основной метрики, а ежедневно — только `guardrail` (защитная метрика) и проверки качества данных.

Ежедневные дашборды полезны для контроля инцидентов и качества данных, но не должны менять решение по эффекту. Если вы начинаете останавливать тест по «красивому дню», вы получаете `optional stopping` и рост `false positive`. Поэтому фиксируйте `fixed horizon` или используйте `sequential testing` с `alpha spending`, а промежуточные просмотры делайте только в рамках заранее описанных правил.

4Какое утверждение лучше всего описывает практический плюс `sequential testing` по сравнению с `fixed horizon`?
A`Sequential testing` всегда даёт больший `effect size`, поэтому его выбирают ради роста метрик
B`Sequential testing` может позволить раннюю остановку при сильном сигнале, сохраняя контроль `Type I error` через `alpha spending`
C`Sequential testing` убирает необходимость `randomization`, потому что достаточно смотреть динамику
D`Sequential testing` гарантирует отсутствие `false positive` при любом количестве просмотров
Ответ: Плюс `sequential testing`: можно остановиться раньше при сильном сигнале и при этом контролировать `Type I error` через `alpha spending`.

При `fixed horizon` вы обязаны дождаться конца, даже если эффект уже выглядит очевидным. В `sequential testing` вы планируете `interim analysis` и можете остановиться раньше по границе, заданной через `alpha spending`. Это экономит время и трафик, но требует дисциплины в `stopping rule` и корректной аналитики.

5Команда запускает `A/B test` и каждый день смотрит `p-value`; как только видит `p-value < alpha`, сразу завершает и объявляет победу. В чём главный риск такого `peeking`?
AВырастает риск `Type I error` (false positive), потому что `stopping rule` зависит от данных и нет `alpha spending`.
BСнижается `power`, потому что любое число проверок всегда делает тест слабее
C`randomization` перестаёт работать, поэтому группы становятся несопоставимыми
D`lift` автоматически становится отрицательным из-за частых проверок
Ответ: `Peeking` с остановкой по `p-value` без корректировки повышает риск `false positive`.

Обычная интерпретация `p-value` при уровне `alpha` предполагает заранее фиксированный план анализа. Если вы многократно проверяете результат и останавливаетесь при первом `p-value < alpha`, вы фактически делаете несколько попыток «поймать» значимость. Это увеличивает `Type I error`, поэтому нужен `fixed horizon` или корректный `sequential testing` с `alpha spending`.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСнижение дисперсии и CUPED