1 мая 2026 г.

Как оценить эффект фичи продакт-менеджеру

Карьерник — Telegram-тренажёр для собеса аналитика и продакт-менеджера: 5–10 минут в день, 2500+ вопросов, разбор после каждого ответа.

Содержание:

Зачем считать эффект до запуска
Оценка ДО: модель влияния
Оценка ВО ВРЕМЯ: A/B-тест и proxy-метрики
Оценка ПОСЛЕ: что реально дала фича
Когда A/B невозможен
Шаблон post-mortem дока
Частые ошибки
FAQ

Зачем считать эффект до запуска

Продакт без оценки эффекта — это спорщик в очереди. «Давайте сделаем X», «А давайте Y», и побеждает тот, кто громче.

С оценкой эффекта разговор становится другим: «X принесёт примерно +1.5 п.п. конверсии, это около 12 млн в год, при затратах в 4 человеко-недели. Y принесёт +0.3 п.п., 2 млн в год, при тех же затратах». Не надо спорить, надо считать.

Оценка эффекта делается трижды: до запуска (стоит ли делать), во время (работает ли), после (какой реально вышел эффект). На каждом этапе свой инструмент.

Это не бюрократия, а защита команды от выгорания. Если фича принесла «непонятно сколько», через полгода возникнет соблазн её передавать, переписывать или удалять — и каждый раз будет драма с участием стейкхолдеров. Если задокументировано, что фича дала +1.2% к конверсии и +0.7% к retention, обсуждение становится рациональным.

Оценка ДО: модель влияния

Перед стартом строишь простую модель: какая метрика верхнего уровня, через что фича на неё влияет, какой реалистичный диапазон.

Пример. Цель — выручка. Фича — рекомендации в корзине. Модель:

Выручка = трафик × конверсия в платёж × средний чек.
Рекомендации увеличивают средний чек: пользователь добавляет ещё один товар.
Сейчас средний чек 1500 руб. Если 5% пользователей доберут товар на 600 руб, средний чек вырастет на 30 руб (5% × 600), это +2%.
При обороте 100 млн в год это +2 млн в год.
Работа: 6 человеко-недель. Окупаемость очевидно в плюс.

Модель не должна быть точной. Должна давать порядок. Если в модели получается 10x от текущей метрики — модель ошибочна, перепроверяй. Если получается +0.1% — фича скорее всего не стоит спринта.

Полезно делать три сценария: пессимистичный, базовый, оптимистичный. Если даже оптимистичный не оправдывает работу — не делаем.

Шаблон таблицы для оценки ДО:

Параметр	Пессимист	База	Оптимист
Доля затронутых пользователей	2%	5%	10%
Размер эффекта на чек	+200 ₽	+600 ₽	+1000 ₽
Прирост выручки в год	~0.4%	~2%	~6.7%
Стоимость, ч.-нед.	6	6	6

Проговорить на ревью простую логику: «при базовой оценке окупаемость 1–2 месяца, при пессимистичной — около полугода, при оптимистичной — несколько недель» — этого обычно достаточно, чтобы стейкхолдеры включились.

Оценка ВО ВРЕМЯ: A/B-тест и proxy-метрики

Когда фичу можно покатить на половину пользователей — катаем A/B. Что заранее зафиксировать:

Главную метрику (одну).
2–3 вторичные (защитные — чтобы не поломали).
Минимально интересный эффект (MDE) — то, при котором есть смысл раскатывать.
Размер выборки и срок теста (исходя из MDE и базовой конверсии).

MDE считается через калькулятор размера выборки. Грубо: чем меньше эффект ловишь, тем больше выборка нужна. Ловить +0.1% при базе 5% — нужны миллионы пользователей.

Если фича раскатывается без A/B (редизайн, миграция), используешь proxy-метрики и сравнение с предыдущим периодом. Это слабее A/B, но лучше чем ничего.

В первые часы после релиза смотришь технические метрики: ошибки, время загрузки, краши. Если что-то поплыло — катишь обратно, не ждёшь финального A/B.

Чек-лист пред-A/B (распечатать и держать рядом):

Сформулирована гипотеза в виде «фича X увеличит метрику Y на Z за счёт W».
Зафиксирована главная метрика (одна).
Зафиксированы 2–3 защитные метрики.
Определены MDE и срок теста.
Согласована доля трафика на тест.
Сегменты, на которые катим, описаны.
Согласован критерий ранней остановки (если что-то критично сломалось).

Без чек-листа в 80% случаев забывается какой-то пункт, и A/B превращается в «посмотрим, что получится».

Оценка ПОСЛЕ: что реально дала фича

Когда тест закончен и фича раскатана — пишешь post-mortem-док. Структура простая:

Гипотеза. Что мы хотели изменить и на сколько.
Результат. Что получили в A/B (значимый/незначимый, размер).
Долгосрочный эффект. Через 1–2 месяца — держится ли эффект, не ушёл ли в новелти.
Что научились. Подтвердилась гипотеза или нет, что узнали о пользователях.
Что дальше. Развиваем, докручиваем, откатываем.

Документ короткий — 1 страница. Главное — фиксировать, что узнали. Через год команда перечитает 20 таких документов и поймёт что работает, а что нет.

Долгосрочный эффект отдельно важен. Многие фичи дают +5% в первый месяц и -2% к шестому: пользователи адаптировались, или это была новизна. Без отложенной оценки ты этого не увидишь.

Антипатерн — публиковать результат A/B без раздела «что дальше». Если из теста не следует решения, его как будто и не было. Хорошие выводы всегда заканчиваются действием: «раскатываем», «откатываем», «повторяем тест с другой аудиторией», «проверяем гипотезу о проблеме отдельным интервью».

Когда A/B невозможен

Не каждую фичу можно тестировать на половине трафика. Случаи:

Слишком мало пользователей. На 1000 DAU не поймаешь даже +5%.
Сетевой эффект. Маркетплейс — продавцы и покупатели влияют друг на друга, разделение ломает картину.
Юридическая обязаловка. Согласие на cookies — тут не A/B, тут раскат.
Брендовые/визуальные изменения. Логотип не делишь.

В таких случаях — pre/post сравнение, синтетический контроль, geo-тест (катишь на один регион, сравниваешь с похожим), или интеррапт-анализ временного ряда.

Все эти методы слабее A/B. В выводах честно пишешь: «эффект оценен через X, точность ниже A/B».

Сравнение методов:

Метод	Когда применять	Сила вывода
A/B-тест	Достаточно трафика, нет сетевых эффектов	Высокая
Switchback	Маркетплейс, такси-подобные продукты	Средняя
Geo-тест	Сегментируется по регионам	Средняя
Pre/post	Глобальный раскат, нет контроля	Низкая (зависит от сезонности)
Синтетический контроль	Один регион/сегмент против сборного	Средняя

Цифры порядков и применимость — ориентиры, не догма для конкретного продукта.

Шаблон post-mortem дока

Удобный шаблон, который реально кладётся в Notion/Confluence и заполняется за 30–40 минут после теста:

Название: [фича + период]
Автор: [PM]
Команда: [бек, фронт, аналитик]

1. Гипотеза
   Если сделать X, метрика Y вырастет на Z, потому что W.

2. Дизайн эксперимента
   - Доля трафика, длительность, MDE
   - Главная метрика, защитные

3. Результаты
   - Главная метрика: +X% (p-value, доверительный интервал)
   - Защитные: без значимых изменений / просели на Y
   - Сегментный анализ: где сильнее эффект, где слабее

4. Что научились
   - Подтвердилась гипотеза?
   - Что узнали про сегменты?

5. Решение
   Раскатываем / откатываем / повторяем.

6. Что дальше
   Следующая гипотеза, бэклог-задачи.

Такой док занимает одну страницу и за пять минут даёт новому участнику команды контекст, зачем фича появилась и что про неё известно.

Частые ошибки

Считать эффект только после запуска. До запуска — главная точка решения, после — поздно.
Брать одну метрику и не смотреть защитные. Конверсия выросла, retention упал — фича плохая.
Игнорировать долгосрочный эффект. Новелти проходит за 2–4 недели, потом картина меняется.
Сравнивать с прошлым годом без поправки на сезонность.
Считать значимым любой плюс. Без статистической значимости — это шум.
Не фиксировать MDE до старта. Потом подгоняешь критерий под результат.
Объявлять победу по метрике, по которой не было гипотезы. Это p-hacking.
Объявлять победу по сегменту, не задекларированному заранее. Сегментный анализ — это гипотезы для следующего теста, не вывод.
Делать «глобальный A/B» без чек-листа sanity checks: одинаковая ли группа по полу/возрасту/региону.

Связанные темы

FAQ

Сколько ждать после релиза, прежде чем оценивать эффект?

Обычно 2 недели для краткосрочного эффекта плюс 1–2 месяца для долгосрочного. Меньше — поймаешь новелти, больше — фича устареет.

Что делать, если A/B показал +0%?

Сначала проверить, был ли тест мощным (хватало ли выборки). Если хватало — фича не работает, не катим. Если не хватало — повторяем дольше или с большей долей трафика.

Можно ли оценивать эффект без аналитика?

До запуска — да, моделью. Во время и после — желательно с аналитиком, легко наделать ошибок (выживаемость когорты, корректные доверительные интервалы).

Что важнее — статистическая или практическая значимость?

Практическая. Статистически значимое +0.05% при работе 8 недель — мусор. Незначимое +5% — повод повторить тест.

Как защитить эффект от стейкхолдера, который не верит цифрам?

Заранее фиксированный док с гипотезой, MDE, метриками. Если стейкхолдер не верит — он спорит не с тобой, а с собственной подписью.

Как оценить эффект фичи, которая косвенно влияет на главную метрику?

Через прокси-метрику и логическую связь. Например, фича улучшает скорость загрузки, прокси — bounce rate, дальше связь bounce → конверсия делается отдельным анализом.

Что делать, если фича принесла плюс, но защитная метрика просела?

Считать совокупный эффект на бизнес-метрику (выручка, активные пользователи). Если в сумме плюс — катим, но в бэклог попадает задача на починку защитной.

Тренируйте кейсы по A/B и продуктовой аналитике — откройте Карьерник с 2500+ вопросами.

Тренироваться в Telegram