Как оценить эффект фичи продакт-менеджеру

Карьерник — Telegram-тренажёр для собеса аналитика и продакт-менеджера: 5–10 минут в день, 2500+ вопросов, разбор после каждого ответа.

Зачем считать эффект до запуска

Продакт без оценки эффекта — это спорщик в очереди. «Давайте сделаем X», «А давайте Y», и побеждает тот, кто громче.

С оценкой эффекта разговор становится другим: «X принесёт примерно +1.5 п.п. конверсии, это около 12 млн в год, при затратах в 4 человеко-недели. Y принесёт +0.3 п.п., 2 млн в год, при тех же затратах». Не надо спорить, надо считать.

Оценка эффекта делается трижды: до запуска (стоит ли делать), во время (работает ли), после (какой реально вышел эффект). На каждом этапе свой инструмент.

Это не бюрократия, а защита команды от выгорания. Если фича принесла «непонятно сколько», через полгода возникнет соблазн её передавать, переписывать или удалять — и каждый раз будет драма с участием стейкхолдеров. Если задокументировано, что фича дала +1.2% к конверсии и +0.7% к retention, обсуждение становится рациональным.

Оценка ДО: модель влияния

Перед стартом строишь простую модель: какая метрика верхнего уровня, через что фича на неё влияет, какой реалистичный диапазон.

Пример. Цель — выручка. Фича — рекомендации в корзине. Модель:

  • Выручка = трафик × конверсия в платёж × средний чек.
  • Рекомендации увеличивают средний чек: пользователь добавляет ещё один товар.
  • Сейчас средний чек 1500 руб. Если 5% пользователей доберут товар на 600 руб, средний чек вырастет на 30 руб (5% × 600), это +2%.
  • При обороте 100 млн в год это +2 млн в год.
  • Работа: 6 человеко-недель. Окупаемость очевидно в плюс.

Модель не должна быть точной. Должна давать порядок. Если в модели получается 10x от текущей метрики — модель ошибочна, перепроверяй. Если получается +0.1% — фича скорее всего не стоит спринта.

Полезно делать три сценария: пессимистичный, базовый, оптимистичный. Если даже оптимистичный не оправдывает работу — не делаем.

Шаблон таблицы для оценки ДО:

Параметр Пессимист База Оптимист
Доля затронутых пользователей 2% 5% 10%
Размер эффекта на чек +200 ₽ +600 ₽ +1000 ₽
Прирост выручки в год ~0.4% ~2% ~6.7%
Стоимость, ч.-нед. 6 6 6

Проговорить на ревью простую логику: «при базовой оценке окупаемость 1–2 месяца, при пессимистичной — около полугода, при оптимистичной — несколько недель» — этого обычно достаточно, чтобы стейкхолдеры включились.

Оценка ВО ВРЕМЯ: A/B-тест и proxy-метрики

Когда фичу можно покатить на половину пользователей — катаем A/B. Что заранее зафиксировать:

  • Главную метрику (одну).
  • 2–3 вторичные (защитные — чтобы не поломали).
  • Минимально интересный эффект (MDE) — то, при котором есть смысл раскатывать.
  • Размер выборки и срок теста (исходя из MDE и базовой конверсии).

MDE считается через калькулятор размера выборки. Грубо: чем меньше эффект ловишь, тем больше выборка нужна. Ловить +0.1% при базе 5% — нужны миллионы пользователей.

Если фича раскатывается без A/B (редизайн, миграция), используешь proxy-метрики и сравнение с предыдущим периодом. Это слабее A/B, но лучше чем ничего.

В первые часы после релиза смотришь технические метрики: ошибки, время загрузки, краши. Если что-то поплыло — катишь обратно, не ждёшь финального A/B.

Чек-лист пред-A/B (распечатать и держать рядом):

  • Сформулирована гипотеза в виде «фича X увеличит метрику Y на Z за счёт W».
  • Зафиксирована главная метрика (одна).
  • Зафиксированы 2–3 защитные метрики.
  • Определены MDE и срок теста.
  • Согласована доля трафика на тест.
  • Сегменты, на которые катим, описаны.
  • Согласован критерий ранней остановки (если что-то критично сломалось).

Без чек-листа в 80% случаев забывается какой-то пункт, и A/B превращается в «посмотрим, что получится».

Оценка ПОСЛЕ: что реально дала фича

Когда тест закончен и фича раскатана — пишешь post-mortem-док. Структура простая:

  • Гипотеза. Что мы хотели изменить и на сколько.
  • Результат. Что получили в A/B (значимый/незначимый, размер).
  • Долгосрочный эффект. Через 1–2 месяца — держится ли эффект, не ушёл ли в новелти.
  • Что научились. Подтвердилась гипотеза или нет, что узнали о пользователях.
  • Что дальше. Развиваем, докручиваем, откатываем.

Документ короткий — 1 страница. Главное — фиксировать, что узнали. Через год команда перечитает 20 таких документов и поймёт что работает, а что нет.

Долгосрочный эффект отдельно важен. Многие фичи дают +5% в первый месяц и -2% к шестому: пользователи адаптировались, или это была новизна. Без отложенной оценки ты этого не увидишь.

Антипатерн — публиковать результат A/B без раздела «что дальше». Если из теста не следует решения, его как будто и не было. Хорошие выводы всегда заканчиваются действием: «раскатываем», «откатываем», «повторяем тест с другой аудиторией», «проверяем гипотезу о проблеме отдельным интервью».

Когда A/B невозможен

Не каждую фичу можно тестировать на половине трафика. Случаи:

  • Слишком мало пользователей. На 1000 DAU не поймаешь даже +5%.
  • Сетевой эффект. Маркетплейс — продавцы и покупатели влияют друг на друга, разделение ломает картину.
  • Юридическая обязаловка. Согласие на cookies — тут не A/B, тут раскат.
  • Брендовые/визуальные изменения. Логотип не делишь.

В таких случаях — pre/post сравнение, синтетический контроль, geo-тест (катишь на один регион, сравниваешь с похожим), или интеррапт-анализ временного ряда.

Все эти методы слабее A/B. В выводах честно пишешь: «эффект оценен через X, точность ниже A/B».

Сравнение методов:

Метод Когда применять Сила вывода
A/B-тест Достаточно трафика, нет сетевых эффектов Высокая
Switchback Маркетплейс, такси-подобные продукты Средняя
Geo-тест Сегментируется по регионам Средняя
Pre/post Глобальный раскат, нет контроля Низкая (зависит от сезонности)
Синтетический контроль Один регион/сегмент против сборного Средняя

Цифры порядков и применимость — ориентиры, не догма для конкретного продукта.

Шаблон post-mortem дока

Удобный шаблон, который реально кладётся в Notion/Confluence и заполняется за 30–40 минут после теста:

Название: [фича + период]
Автор: [PM]
Команда: [бек, фронт, аналитик]

1. Гипотеза
   Если сделать X, метрика Y вырастет на Z, потому что W.

2. Дизайн эксперимента
   - Доля трафика, длительность, MDE
   - Главная метрика, защитные

3. Результаты
   - Главная метрика: +X% (p-value, доверительный интервал)
   - Защитные: без значимых изменений / просели на Y
   - Сегментный анализ: где сильнее эффект, где слабее

4. Что научились
   - Подтвердилась гипотеза?
   - Что узнали про сегменты?

5. Решение
   Раскатываем / откатываем / повторяем.

6. Что дальше
   Следующая гипотеза, бэклог-задачи.

Такой док занимает одну страницу и за пять минут даёт новому участнику команды контекст, зачем фича появилась и что про неё известно.

Частые ошибки

  • Считать эффект только после запуска. До запуска — главная точка решения, после — поздно.
  • Брать одну метрику и не смотреть защитные. Конверсия выросла, retention упал — фича плохая.
  • Игнорировать долгосрочный эффект. Новелти проходит за 2–4 недели, потом картина меняется.
  • Сравнивать с прошлым годом без поправки на сезонность.
  • Считать значимым любой плюс. Без статистической значимости — это шум.
  • Не фиксировать MDE до старта. Потом подгоняешь критерий под результат.
  • Объявлять победу по метрике, по которой не было гипотезы. Это p-hacking.
  • Объявлять победу по сегменту, не задекларированному заранее. Сегментный анализ — это гипотезы для следующего теста, не вывод.
  • Делать «глобальный A/B» без чек-листа sanity checks: одинаковая ли группа по полу/возрасту/региону.

Связанные темы

FAQ

Сколько ждать после релиза, прежде чем оценивать эффект?

Обычно 2 недели для краткосрочного эффекта плюс 1–2 месяца для долгосрочного. Меньше — поймаешь новелти, больше — фича устареет.

Что делать, если A/B показал +0%?

Сначала проверить, был ли тест мощным (хватало ли выборки). Если хватало — фича не работает, не катим. Если не хватало — повторяем дольше или с большей долей трафика.

Можно ли оценивать эффект без аналитика?

До запуска — да, моделью. Во время и после — желательно с аналитиком, легко наделать ошибок (выживаемость когорты, корректные доверительные интервалы).

Что важнее — статистическая или практическая значимость?

Практическая. Статистически значимое +0.05% при работе 8 недель — мусор. Незначимое +5% — повод повторить тест.

Как защитить эффект от стейкхолдера, который не верит цифрам?

Заранее фиксированный док с гипотезой, MDE, метриками. Если стейкхолдер не верит — он спорит не с тобой, а с собственной подписью.

Как оценить эффект фичи, которая косвенно влияет на главную метрику?

Через прокси-метрику и логическую связь. Например, фича улучшает скорость загрузки, прокси — bounce rate, дальше связь bounce → конверсия делается отдельным анализом.

Что делать, если фича принесла плюс, но защитная метрика просела?

Считать совокупный эффект на бизнес-метрику (выручка, активные пользователи). Если в сумме плюс — катим, но в бэклог попадает задача на починку защитной.


Тренируйте кейсы по A/B и продуктовой аналитике — откройте Карьерник с 2500+ вопросами.