Как оценить эффект фичи продакт-менеджеру
Карьерник — Telegram-тренажёр для собеса аналитика и продакт-менеджера: 5–10 минут в день, 2500+ вопросов, разбор после каждого ответа.
Содержание:
Зачем считать эффект до запуска
Продакт без оценки эффекта — это спорщик в очереди. «Давайте сделаем X», «А давайте Y», и побеждает тот, кто громче.
С оценкой эффекта разговор становится другим: «X принесёт примерно +1.5 п.п. конверсии, это около 12 млн в год, при затратах в 4 человеко-недели. Y принесёт +0.3 п.п., 2 млн в год, при тех же затратах». Не надо спорить, надо считать.
Оценка эффекта делается трижды: до запуска (стоит ли делать), во время (работает ли), после (какой реально вышел эффект). На каждом этапе свой инструмент.
Это не бюрократия, а защита команды от выгорания. Если фича принесла «непонятно сколько», через полгода возникнет соблазн её передавать, переписывать или удалять — и каждый раз будет драма с участием стейкхолдеров. Если задокументировано, что фича дала +1.2% к конверсии и +0.7% к retention, обсуждение становится рациональным.
Оценка ДО: модель влияния
Перед стартом строишь простую модель: какая метрика верхнего уровня, через что фича на неё влияет, какой реалистичный диапазон.
Пример. Цель — выручка. Фича — рекомендации в корзине. Модель:
- Выручка = трафик × конверсия в платёж × средний чек.
- Рекомендации увеличивают средний чек: пользователь добавляет ещё один товар.
- Сейчас средний чек 1500 руб. Если 5% пользователей доберут товар на 600 руб, средний чек вырастет на 30 руб (5% × 600), это +2%.
- При обороте 100 млн в год это +2 млн в год.
- Работа: 6 человеко-недель. Окупаемость очевидно в плюс.
Модель не должна быть точной. Должна давать порядок. Если в модели получается 10x от текущей метрики — модель ошибочна, перепроверяй. Если получается +0.1% — фича скорее всего не стоит спринта.
Полезно делать три сценария: пессимистичный, базовый, оптимистичный. Если даже оптимистичный не оправдывает работу — не делаем.
Шаблон таблицы для оценки ДО:
| Параметр | Пессимист | База | Оптимист |
|---|---|---|---|
| Доля затронутых пользователей | 2% | 5% | 10% |
| Размер эффекта на чек | +200 ₽ | +600 ₽ | +1000 ₽ |
| Прирост выручки в год | ~0.4% | ~2% | ~6.7% |
| Стоимость, ч.-нед. | 6 | 6 | 6 |
Проговорить на ревью простую логику: «при базовой оценке окупаемость 1–2 месяца, при пессимистичной — около полугода, при оптимистичной — несколько недель» — этого обычно достаточно, чтобы стейкхолдеры включились.
Оценка ВО ВРЕМЯ: A/B-тест и proxy-метрики
Когда фичу можно покатить на половину пользователей — катаем A/B. Что заранее зафиксировать:
- Главную метрику (одну).
- 2–3 вторичные (защитные — чтобы не поломали).
- Минимально интересный эффект (MDE) — то, при котором есть смысл раскатывать.
- Размер выборки и срок теста (исходя из MDE и базовой конверсии).
MDE считается через калькулятор размера выборки. Грубо: чем меньше эффект ловишь, тем больше выборка нужна. Ловить +0.1% при базе 5% — нужны миллионы пользователей.
Если фича раскатывается без A/B (редизайн, миграция), используешь proxy-метрики и сравнение с предыдущим периодом. Это слабее A/B, но лучше чем ничего.
В первые часы после релиза смотришь технические метрики: ошибки, время загрузки, краши. Если что-то поплыло — катишь обратно, не ждёшь финального A/B.
Чек-лист пред-A/B (распечатать и держать рядом):
- Сформулирована гипотеза в виде «фича X увеличит метрику Y на Z за счёт W».
- Зафиксирована главная метрика (одна).
- Зафиксированы 2–3 защитные метрики.
- Определены MDE и срок теста.
- Согласована доля трафика на тест.
- Сегменты, на которые катим, описаны.
- Согласован критерий ранней остановки (если что-то критично сломалось).
Без чек-листа в 80% случаев забывается какой-то пункт, и A/B превращается в «посмотрим, что получится».
Оценка ПОСЛЕ: что реально дала фича
Когда тест закончен и фича раскатана — пишешь post-mortem-док. Структура простая:
- Гипотеза. Что мы хотели изменить и на сколько.
- Результат. Что получили в A/B (значимый/незначимый, размер).
- Долгосрочный эффект. Через 1–2 месяца — держится ли эффект, не ушёл ли в новелти.
- Что научились. Подтвердилась гипотеза или нет, что узнали о пользователях.
- Что дальше. Развиваем, докручиваем, откатываем.
Документ короткий — 1 страница. Главное — фиксировать, что узнали. Через год команда перечитает 20 таких документов и поймёт что работает, а что нет.
Долгосрочный эффект отдельно важен. Многие фичи дают +5% в первый месяц и -2% к шестому: пользователи адаптировались, или это была новизна. Без отложенной оценки ты этого не увидишь.
Антипатерн — публиковать результат A/B без раздела «что дальше». Если из теста не следует решения, его как будто и не было. Хорошие выводы всегда заканчиваются действием: «раскатываем», «откатываем», «повторяем тест с другой аудиторией», «проверяем гипотезу о проблеме отдельным интервью».
Когда A/B невозможен
Не каждую фичу можно тестировать на половине трафика. Случаи:
- Слишком мало пользователей. На 1000 DAU не поймаешь даже +5%.
- Сетевой эффект. Маркетплейс — продавцы и покупатели влияют друг на друга, разделение ломает картину.
- Юридическая обязаловка. Согласие на cookies — тут не A/B, тут раскат.
- Брендовые/визуальные изменения. Логотип не делишь.
В таких случаях — pre/post сравнение, синтетический контроль, geo-тест (катишь на один регион, сравниваешь с похожим), или интеррапт-анализ временного ряда.
Все эти методы слабее A/B. В выводах честно пишешь: «эффект оценен через X, точность ниже A/B».
Сравнение методов:
| Метод | Когда применять | Сила вывода |
|---|---|---|
| A/B-тест | Достаточно трафика, нет сетевых эффектов | Высокая |
| Switchback | Маркетплейс, такси-подобные продукты | Средняя |
| Geo-тест | Сегментируется по регионам | Средняя |
| Pre/post | Глобальный раскат, нет контроля | Низкая (зависит от сезонности) |
| Синтетический контроль | Один регион/сегмент против сборного | Средняя |
Цифры порядков и применимость — ориентиры, не догма для конкретного продукта.
Шаблон post-mortem дока
Удобный шаблон, который реально кладётся в Notion/Confluence и заполняется за 30–40 минут после теста:
Название: [фича + период]
Автор: [PM]
Команда: [бек, фронт, аналитик]
1. Гипотеза
Если сделать X, метрика Y вырастет на Z, потому что W.
2. Дизайн эксперимента
- Доля трафика, длительность, MDE
- Главная метрика, защитные
3. Результаты
- Главная метрика: +X% (p-value, доверительный интервал)
- Защитные: без значимых изменений / просели на Y
- Сегментный анализ: где сильнее эффект, где слабее
4. Что научились
- Подтвердилась гипотеза?
- Что узнали про сегменты?
5. Решение
Раскатываем / откатываем / повторяем.
6. Что дальше
Следующая гипотеза, бэклог-задачи.Такой док занимает одну страницу и за пять минут даёт новому участнику команды контекст, зачем фича появилась и что про неё известно.
Частые ошибки
- Считать эффект только после запуска. До запуска — главная точка решения, после — поздно.
- Брать одну метрику и не смотреть защитные. Конверсия выросла, retention упал — фича плохая.
- Игнорировать долгосрочный эффект. Новелти проходит за 2–4 недели, потом картина меняется.
- Сравнивать с прошлым годом без поправки на сезонность.
- Считать значимым любой плюс. Без статистической значимости — это шум.
- Не фиксировать MDE до старта. Потом подгоняешь критерий под результат.
- Объявлять победу по метрике, по которой не было гипотезы. Это p-hacking.
- Объявлять победу по сегменту, не задекларированному заранее. Сегментный анализ — это гипотезы для следующего теста, не вывод.
- Делать «глобальный A/B» без чек-листа sanity checks: одинаковая ли группа по полу/возрасту/региону.
Связанные темы
- Как запустить эксперимент с нуля
- Что такое A/B-тест простыми словами
- Как поставить цели на квартал продукту
- Как вести беклог продукта
FAQ
Сколько ждать после релиза, прежде чем оценивать эффект?
Обычно 2 недели для краткосрочного эффекта плюс 1–2 месяца для долгосрочного. Меньше — поймаешь новелти, больше — фича устареет.
Что делать, если A/B показал +0%?
Сначала проверить, был ли тест мощным (хватало ли выборки). Если хватало — фича не работает, не катим. Если не хватало — повторяем дольше или с большей долей трафика.
Можно ли оценивать эффект без аналитика?
До запуска — да, моделью. Во время и после — желательно с аналитиком, легко наделать ошибок (выживаемость когорты, корректные доверительные интервалы).
Что важнее — статистическая или практическая значимость?
Практическая. Статистически значимое +0.05% при работе 8 недель — мусор. Незначимое +5% — повод повторить тест.
Как защитить эффект от стейкхолдера, который не верит цифрам?
Заранее фиксированный док с гипотезой, MDE, метриками. Если стейкхолдер не верит — он спорит не с тобой, а с собственной подписью.
Как оценить эффект фичи, которая косвенно влияет на главную метрику?
Через прокси-метрику и логическую связь. Например, фича улучшает скорость загрузки, прокси — bounce rate, дальше связь bounce → конверсия делается отдельным анализом.
Что делать, если фича принесла плюс, но защитная метрика просела?
Считать совокупный эффект на бизнес-метрику (выручка, активные пользователи). Если в сумме плюс — катим, но в бэклог попадает задача на починку защитной.
Тренируйте кейсы по A/B и продуктовой аналитике — откройте Карьерник с 2500+ вопросами.