В первые сутки эксперимента метрика выросла на 12%, но через 3 дня рост исчез и эффект стал около 0. Какое объяснение наиболее вероятно и что делать дальше?
AЭто похоже на
novelty effect (эффект новизны); стоит смотреть результаты на более длинном горизонте и проверять устойчивость по когортамBРост в первый день доказывает успех; нужно срочно делать rollout на 100%
CЭто обязательно
SRM; нужно только пересчитать тест на sample ratio mismatchDЭто означает, что эксперимент «сломался»; любые данные после первого дня нужно выбросить
Правильный ответ. Краткосрочный всплеск может быть из-за
novelty effect (эффект новизны) и/или календарных факторов, поэтому важно проверять устойчивость эффекта на более длинном горизонте.Разбор
Пользователи могут активно взаимодействовать с новой фичей из любопытства, но затем возвращаются к прежнему поведению. Поэтому важно смотреть не только быстрый рост, но и устойчивость эффекта на неделе или дольше, а также разрезы по новым/старым пользователям. Если долгосрочного эффекта нет, выкатка может не принести реальной пользы.
Проверь себя · 1/3разбор после ответа
Команда смотрит результаты каждый день и останавливает эксперимент, как только видит p-value < 0.05. Какой основной риск такого подхода?
Ещё вопросы по теме «QA, SRM и раскатка»
- Команда готовит крупный A/B‑эксперимент и хочет сначала запустить `A/A test`. Какова главная цель `A/A test`?
- Что такое `SRM` (Sample Ratio Mismatch) (`sample ratio mismatch`) в контексте экспериментов?
- В эксперименте конверсия в варианте B резко просела, но бизнес подозревает поломку трекинга. Какое действие лучше сделать в первую очередь?
- Эксперимент показал положительный эффект, и вы хотите выкатить фичу на всех пользователей. Какой план выкатки наиболее безопасен?
- В `A/A test` вы заметили значимое отличие по `invariant metrics`, например по числу пользователей, попавших в эксперимент, или по распределению платформ. Что это чаще всего означает?
- Все вопросы по «QA, SRM и раскатка» →