Q: Команда смотрит результаты каждый день и останавливает эксперимент, как только видит p-value < 0.05. Какой основной риск такого подхода?

Частые проверки и остановка «как только стало значимо» (optional stopping) увеличивают риск ложноположительных выводов без корректного sequential-дизайна. Если останавливать тест при первом «красивом» p-value, вы фактически делаете много попыток найти значимость. Это ведёт к завышенной доле ложноположительных результатов и нестабильным решениям. Лучше заранее определить длительность, критерии остановки или использовать корректные последовательные методы.

Q: Почему `SRM` (Sample Ratio Mismatch) опасен, даже если целевая метрика выглядит хорошей?

`SRM` (Sample Ratio Mismatch) нарушает предпосылку корректного сравнения групп и может смещать оценку эффекта. Если группы не соответствуют ожидаемому разбиению, это часто значит, что в эксперимент попали разные типы пользователей или часть трафика/событий пропала. Тогда даже «красивый» эффект может быть артефактом. Поэтому при обнаружении `SRM` (Sample Ratio Mismatch) обычно сначала чинят причину и только потом доверяют результатам.

Q: В первые сутки эксперимента метрика выросла на 12%, но через 3 дня рост исчез и эффект стал около 0. Какое объяснение наиболее вероятно и что делать дальше?

Краткосрочный всплеск может быть из-за `novelty effect` (эффект новизны) и/или календарных факторов, поэтому важно проверять устойчивость эффекта на более длинном горизонте. Пользователи могут активно взаимодействовать с новой фичей из любопытства, но затем возвращаются к прежнему поведению. Поэтому важно смотреть не только быстрый рост, но и устойчивость эффекта на неделе или дольше, а также разрезы по новым/старым пользователям. Если долгосрочного эффекта нет, выкатка может не принести реальной пользы.

Question 1

Команда готовит крупный A/B‑эксперимент и хочет сначала запустить `A/A test`. Какова главная цель `A/A test`?

Accepted Answer

`A/A test` используют, чтобы проверить корректность рандомизации, сбора событий и расчёта метрик до запуска настоящего A/B. В `A/A test` оба варианта логически одинаковые, поэтому существенных различий в метриках быть не должно. Если различия появляются, это часто указывает на проблемы с разбиением трафика, сегментацией или подсчётом метрик. Такой тест помогает поймать ошибки до запуска настоящего A/B, где иначе можно принять баг за эффект.

Question 2

Что такое `SRM` (Sample Ratio Mismatch) (`sample ratio mismatch`) в контексте экспериментов?

Accepted Answer

`SRM` (Sample Ratio Mismatch) означает, что в эксперимент попали не те доли пользователей, которые планировались. Обычно в эксперименте ожидают распределение вроде 50/50 или 90/10, но фактически получают другое. Это может быть из-за ошибок в assignment, фильтров, сбоев трекинга или особенностей доставки фичи. `SRM` (Sample Ratio Mismatch) опасен тем, что группы могут стать несопоставимыми, и выводы по эффекту перестают быть надёжными.

Question 3

Команда смотрит результаты каждый день и останавливает эксперимент, как только видит p-value < 0.05. Какой основной риск такого подхода?

Accepted Answer

Частые проверки и остановка «как только стало значимо» (optional stopping) увеличивают риск ложноположительных выводов без корректного sequential-дизайна. Если останавливать тест при первом «красивом» p-value, вы фактически делаете много попыток найти значимость. Это ведёт к завышенной доле ложноположительных результатов и нестабильным решениям. Лучше заранее определить длительность, критерии остановки или использовать корректные последовательные методы.

Question 4

Почему `SRM` (Sample Ratio Mismatch) опасен, даже если целевая метрика выглядит хорошей?

Accepted Answer

`SRM` (Sample Ratio Mismatch) нарушает предпосылку корректного сравнения групп и может смещать оценку эффекта. Если группы не соответствуют ожидаемому разбиению, это часто значит, что в эксперимент попали разные типы пользователей или часть трафика/событий пропала. Тогда даже «красивый» эффект может быть артефактом. Поэтому при обнаружении `SRM` (Sample Ratio Mismatch) обычно сначала чинят причину и только потом доверяют результатам.

Question 5

В первые сутки эксперимента метрика выросла на 12%, но через 3 дня рост исчез и эффект стал около 0. Какое объяснение наиболее вероятно и что делать дальше?

Accepted Answer

Краткосрочный всплеск может быть из-за `novelty effect` (эффект новизны) и/или календарных факторов, поэтому важно проверять устойчивость эффекта на более длинном горизонте. Пользователи могут активно взаимодействовать с новой фичей из любопытства, но затем возвращаются к прежнему поведению. Поэтому важно смотреть не только быстрый рост, но и устойчивость эффекта на неделе или дольше, а также разрезы по новым/старым пользователям. Если долгосрочного эффекта нет, выкатка может не принести реальной пользы.

Вопросы по теме «QA, SRM и раскатка»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты