Q: В эксперименте вы делали ежедневные проверки. На 3-й день получили `p-value < alpha` и остановили тест, но позже выяснилось, что при продолжении до 14 дней результат стал бы незначимым. Какое объяснение наиболее вероятно?

Вероятнее всего это случайная флуктуация: `peeking` и ранняя остановка «поймали» шум, который исчез при бы продолжении. В начале теста дисперсия высока, и метрика может случайно отклониться. Если остановить эксперимент в момент такого отклонения, вы фиксируете шум как `effect size`. При продолжении теста результат обычно усредняется и становится более стабильным. Поэтому важно использовать `fixed horizon` или корректные границы в `sequential testing`.

Q: Почему стратегия «остановили, как только стало значимо» часто приводит к завышенному `effect size` и `lift`?

При `optional stopping` вы чаще фиксируете шумовой пик (selection on significance), поэтому оценка `effect size`/`lift` склонна завышаться. Если эксперимент останавливают в момент, когда метрика случайно оказалась выше обычного, именно это значение попадает в отчёт. При продолжении теста эффект часто «усредняется» и становится меньше. Поэтому без корректного `sequential testing` ранняя остановка может создать иллюзию большого `lift` и привести к неверным решениям.

Q: Если вы заранее знаете, что будете делать 5 проверок одной метрики, какой простой консервативный способ контролировать общий `alpha` можно использовать, если нет полноценного `alpha spending`?

Консервативный способ: использовать порог `alpha / k` на каждую из `k` проверок (Bonferroni), чтобы ограничить общий `Type I error`. Множественные просмотры похожи на множественные проверки, поэтому нужно компенсировать рост шанса случайной значимости. Порог `alpha / 5` делает каждую проверку строже и помогает удержать общий риск ошибки первого рода. Это может быть слишком консервативно, поэтому в продвинутых настройках используют `alpha spending` в `sequential testing`.

Question 1

В чём ключевое отличие «просто `peeking` в дашборд» от корректного `sequential testing`?

Accepted Answer

В `sequential testing` заранее фиксируют `interim analysis`, `stopping rule` и распределение `alpha`; при обычном `peeking` этих правил нет. В `sequential testing` заранее фиксируют моменты `interim analysis`, критерии остановки и то, как расходуется `alpha`. Благодаря этому сохраняется контроль `Type I error`. При обычном `peeking` команда часто останавливается при первом «значимом» дне, что превращается в `optional stopping`.

Question 2

Что обязательно зафиксировать до старта, если вы допускаете раннюю остановку в рамках `sequential testing`?

Accepted Answer

Для корректного `sequential testing` нужно заранее зафиксировать `stopping rule`, точки `interim analysis` и целевую метрику с уровнем `alpha`. Когда план фиксируется до запуска, вы не подгоняете правила под шум. Это защищает от `peeking` в стиле «остановили, как только стало значимо». Кроме того, заранее понятно, как интерпретировать `p-value` и как распределяется `alpha` через `alpha spending`.

Question 3

В эксперименте вы делали ежедневные проверки. На 3-й день получили `p-value < alpha` и остановили тест, но позже выяснилось, что при продолжении до 14 дней результат стал бы незначимым. Какое объяснение наиболее вероятно?

Accepted Answer

Вероятнее всего это случайная флуктуация: `peeking` и ранняя остановка «поймали» шум, который исчез при бы продолжении. В начале теста дисперсия высока, и метрика может случайно отклониться. Если остановить эксперимент в момент такого отклонения, вы фиксируете шум как `effect size`. При продолжении теста результат обычно усредняется и становится более стабильным. Поэтому важно использовать `fixed horizon` или корректные границы в `sequential testing`.

Question 4

Почему стратегия «остановили, как только стало значимо» часто приводит к завышенному `effect size` и `lift`?

Accepted Answer

При `optional stopping` вы чаще фиксируете шумовой пик (selection on significance), поэтому оценка `effect size`/`lift` склонна завышаться. Если эксперимент останавливают в момент, когда метрика случайно оказалась выше обычного, именно это значение попадает в отчёт. При продолжении теста эффект часто «усредняется» и становится меньше. Поэтому без корректного `sequential testing` ранняя остановка может создать иллюзию большого `lift` и привести к неверным решениям.

Question 5

Если вы заранее знаете, что будете делать 5 проверок одной метрики, какой простой консервативный способ контролировать общий `alpha` можно использовать, если нет полноценного `alpha spending`?

Accepted Answer

Консервативный способ: использовать порог `alpha / k` на каждую из `k` проверок (Bonferroni), чтобы ограничить общий `Type I error`. Множественные просмотры похожи на множественные проверки, поэтому нужно компенсировать рост шанса случайной значимости. Порог `alpha / 5` делает каждую проверку строже и помогает удержать общий риск ошибки первого рода. Это может быть слишком консервативно, поэтому в продвинутых настройках используют `alpha spending` в `sequential testing`.

Секвенциальное тестирование: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты