Novelty effect (эффект новизны) в A/B-тестах
Содержание:
Что такое novelty effect
Novelty effect (эффект новизны) — поведение юзеров временно меняется при появлении нового, потому что новое привлекает внимание само по себе, независимо от качества.
Юзер видит редизайн → кликает, чтобы изучить → метрика «клики» растёт → через 2-3 недели юзер привыкает → метрика возвращается к baseline или даже падает (юзер устал, разочаровался).
Симметричный эффект — primacy effect: новое юзера отпугивает, метрика временно падает, потом восстанавливается. Это другая ловушка.
Почему опасно
Если запустить A/B на 7 дней — увидишь рост метрики на 10%. Раскатать на 100% → через месяц рост исчезает или даже отрицательный. Хуже всего: между exposure → раскатка → следующий эксперимент проходит время, и не сразу понятно, что было novelty.
Реальные кейсы
- Редизайн ленты соцсети. Первая неделя — рост engagement на 15%. Через месяц — −2%.
- Новая кнопка с яркой анимацией. Первая неделя — CTR x2. Через месяц — обратно.
- Push-нотификация о новой фиче. Первая неделя — все ходят пробовать. Через месяц — нормальный паттерн.
Главное: большое отклонение в первые дни — это red flag, а не успех.
Как обнаружить
1. Watch trend over time
Не один agg. Не «средняя метрика за 14 дней». А график по дням для T и C.
Day 1: T = +20%, C = baseline
Day 7: T = +10%, C = baseline
Day 14: T = +5%, C = baseline
Day 21: T = +1%, C = baselineТренд снижения эффекта — сигнал novelty.
2. Cohort analysis
Раздели по неделе exposure. Если первая cohorta имеет высокий эффект, последняя — низкий, — это novelty.
First exposure week 1: lift +15%
First exposure week 4: lift +2%3. Returning users vs new users
Юзер, который видит фичу первый раз — реагирует на новизну. Юзер, который привык — на качество.
Если эффект в первые дни большой, через 2-3 недели смотреть только returning users в treatment vs control. Если у них эффект меньше — novelty подтверждён.
4. Pre-exposure period
Запустить шажок «exposure без эффекта» для T-группы (например, юзеры видят, что что-то изменилось, но новой логики ещё нет). Сравнить с C-группой. Это вычленяет «реакцию на изменение» от «реакции на улучшение».
Как обрабатывать
1. Длинный эксперимент
Минимум 3-4 недели. Дольше для критичных решений.
Минус: дорого. Эксперимент занимает roadmap-окно. Конкуренты двигаются.
2. Burn-in period
Игнорировать первые 7-14 дней при анализе. Считать метрики только начиная с того момента, когда тренд стабилизировался.
Days 0-7: skip (novelty)
Days 8-28: analyze3. Replicate experiment
Через 2-3 месяца запустить тот же эксперимент с свежей аудиторией. Если эффект тот же — это не novelty, это устойчивый эффект.
4. Long-term holdout
Часть юзеров не получает фичу постоянно. Через 6 месяцев — сравнить с теми, кто получил.
5. Multi-armed bandit вместо A/B
Если новизна сильная и нестабильная — лучше использовать bandit с динамическим перераспределением, чем долгий A/B.
Связанные эффекты
Primacy effect
Противоположное novelty. Юзера новое отпугивает (например, неожиданная навигация). Первые недели — отрицательный эффект, потом восстанавливается.
Heaviness effect
В соцсетях / медиа — самые активные юзеры реагируют первые. Если первая неделя — рост, это может быть просто реакция power users, а не репрезентативной аудитории.
Engagement fatigue
В push / уведомлениях — первые открытия высокие, дальше usage падает. Если меришь «open rate» — может быть novelty + fatigue.
Selection bias на early exposure
В первые дни в T попадают юзеры, которые открывают приложение чаще (логично — больше шансов попасть в эксперимент за день). Это не репрезентативная выборка.
Типичные ошибки
- Запускать A/B на 7 дней. Для большинства фич — недостаточно. Минимум 2-3 недели.
- Игнорировать тренд. Анализ только агрегата за всё время скрывает тренд novelty.
- Только новые юзеры. Если эксперимент только для тех, кто никогда не видел фичу — каждая cohort показывает novelty.
- Не replicate. Один эксперимент — это рабочая гипотеза. Repeat — это устойчивый эффект.
- Заюзерить эффект для дешёвой победы. «Запустим редизайн на неделю, A/B покажет +15%, мы отчитаемся, потом будет видно». Это закрытая дорога к плохому продукту.
Связанные темы
- A/B-тестирование на собесе
- Switchback-эксперименты
- Cluster randomization в A/B
- Sample Ratio Mismatch (SRM)
- Многорукие бандиты vs A/B
FAQ
Как long долго длится novelty effect?
Обычно 2-4 недели. Для редкосрабатывающих фич (новая годовая подписка) — дольше. Для каждодневных фич (лента, push) — быстрее.
Можно ли запустить A/B на 5 дней?
Можно, но интерпретировать с поправкой. Для критичных решений — нет. Для quick decisions (есть кнопка-нет кнопки) — иногда ok.
Что лучше — burn-in или длинный эксперимент?
Зависит. Burn-in быстрее, но требует уверенности, что эффект устаканится за выбранный burn-in. Длинный эксперимент даёт больше данных, но медленнее.
Novelty effect одинаков на разных платформах?
Нет. На mobile — обычно сильнее (нотификации привлекают внимание). На web — слабее. В soft-launch (только опен-беттисты) — почти не виден.
Как обсуждать novelty effect со стейкхолдерами?
«В первые недели рост может быть из-за novelty. Мы рекомендуем подождать 3 недели для достоверного результата». Это normal в DS-команде.