Novelty effect (эффект новизны) в A/B-тестах

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Что такое novelty effect

Novelty effect (эффект новизны) — поведение юзеров временно меняется при появлении нового, потому что новое привлекает внимание само по себе, независимо от качества.

Юзер видит редизайн → кликает, чтобы изучить → метрика «клики» растёт → через 2-3 недели юзер привыкает → метрика возвращается к baseline или даже падает (юзер устал, разочаровался).

Симметричный эффект — primacy effect: новое юзера отпугивает, метрика временно падает, потом восстанавливается. Это другая ловушка.

Почему опасно

Если запустить A/B на 7 дней — увидишь рост метрики на 10%. Раскатать на 100% → через месяц рост исчезает или даже отрицательный. Хуже всего: между exposure → раскатка → следующий эксперимент проходит время, и не сразу понятно, что было novelty.

Реальные кейсы

  • Редизайн ленты соцсети. Первая неделя — рост engagement на 15%. Через месяц — −2%.
  • Новая кнопка с яркой анимацией. Первая неделя — CTR x2. Через месяц — обратно.
  • Push-нотификация о новой фиче. Первая неделя — все ходят пробовать. Через месяц — нормальный паттерн.

Главное: большое отклонение в первые дни — это red flag, а не успех.

Как обнаружить

1. Watch trend over time

Не один agg. Не «средняя метрика за 14 дней». А график по дням для T и C.

Day 1: T = +20%, C = baseline
Day 7: T = +10%, C = baseline
Day 14: T = +5%, C = baseline
Day 21: T = +1%, C = baseline

Тренд снижения эффекта — сигнал novelty.

2. Cohort analysis

Раздели по неделе exposure. Если первая cohorta имеет высокий эффект, последняя — низкий, — это novelty.

First exposure week 1: lift +15%
First exposure week 4: lift +2%

3. Returning users vs new users

Юзер, который видит фичу первый раз — реагирует на новизну. Юзер, который привык — на качество.

Если эффект в первые дни большой, через 2-3 недели смотреть только returning users в treatment vs control. Если у них эффект меньше — novelty подтверждён.

4. Pre-exposure period

Запустить шажок «exposure без эффекта» для T-группы (например, юзеры видят, что что-то изменилось, но новой логики ещё нет). Сравнить с C-группой. Это вычленяет «реакцию на изменение» от «реакции на улучшение».

Как обрабатывать

1. Длинный эксперимент

Минимум 3-4 недели. Дольше для критичных решений.

Минус: дорого. Эксперимент занимает roadmap-окно. Конкуренты двигаются.

2. Burn-in period

Игнорировать первые 7-14 дней при анализе. Считать метрики только начиная с того момента, когда тренд стабилизировался.

Days 0-7: skip (novelty)
Days 8-28: analyze

3. Replicate experiment

Через 2-3 месяца запустить тот же эксперимент с свежей аудиторией. Если эффект тот же — это не novelty, это устойчивый эффект.

4. Long-term holdout

Часть юзеров не получает фичу постоянно. Через 6 месяцев — сравнить с теми, кто получил.

5. Multi-armed bandit вместо A/B

Если новизна сильная и нестабильная — лучше использовать bandit с динамическим перераспределением, чем долгий A/B.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Связанные эффекты

Primacy effect

Противоположное novelty. Юзера новое отпугивает (например, неожиданная навигация). Первые недели — отрицательный эффект, потом восстанавливается.

Heaviness effect

В соцсетях / медиа — самые активные юзеры реагируют первые. Если первая неделя — рост, это может быть просто реакция power users, а не репрезентативной аудитории.

Engagement fatigue

В push / уведомлениях — первые открытия высокие, дальше usage падает. Если меришь «open rate» — может быть novelty + fatigue.

Selection bias на early exposure

В первые дни в T попадают юзеры, которые открывают приложение чаще (логично — больше шансов попасть в эксперимент за день). Это не репрезентативная выборка.

Типичные ошибки

  • Запускать A/B на 7 дней. Для большинства фич — недостаточно. Минимум 2-3 недели.
  • Игнорировать тренд. Анализ только агрегата за всё время скрывает тренд novelty.
  • Только новые юзеры. Если эксперимент только для тех, кто никогда не видел фичу — каждая cohort показывает novelty.
  • Не replicate. Один эксперимент — это рабочая гипотеза. Repeat — это устойчивый эффект.
  • Заюзерить эффект для дешёвой победы. «Запустим редизайн на неделю, A/B покажет +15%, мы отчитаемся, потом будет видно». Это закрытая дорога к плохому продукту.

Связанные темы

FAQ

Как long долго длится novelty effect?

Обычно 2-4 недели. Для редкосрабатывающих фич (новая годовая подписка) — дольше. Для каждодневных фич (лента, push) — быстрее.

Можно ли запустить A/B на 5 дней?

Можно, но интерпретировать с поправкой. Для критичных решений — нет. Для quick decisions (есть кнопка-нет кнопки) — иногда ok.

Что лучше — burn-in или длинный эксперимент?

Зависит. Burn-in быстрее, но требует уверенности, что эффект устаканится за выбранный burn-in. Длинный эксперимент даёт больше данных, но медленнее.

Novelty effect одинаков на разных платформах?

Нет. На mobile — обычно сильнее (нотификации привлекают внимание). На web — слабее. В soft-launch (только опен-беттисты) — почти не виден.

Как обсуждать novelty effect со стейкхолдерами?

«В первые недели рост может быть из-за novelty. Мы рекомендуем подождать 3 недели для достоверного результата». Это normal в DS-команде.