A/B-эксперименты для PM на собеседовании
Зачем PM спрашивают про A/B
Эксперименты — главный инструмент принятия продуктовых решений в большинстве сильных продуктовых компаний. PM, который не разбирается в A/B, не может ответственно владеть метрикой: «фича работает» без эксперимента — мнение, а не факт. На собесе продакт-менеджера A/B-тесты — обязательный блок: либо отдельным раундом, либо как часть метрик-интервью.
От PM не ждут уровня data scientist — глубоких знаний статистики. Ждут понимания идеи (как проверить гипотезу), типичных ловушек (peeking, SRM, novelty effect) и умения говорить на одном языке с аналитиком и DS-командой.
Базовая терминология
Контроль и тест. Control — текущая версия, test — новая. Аудитория разделяется случайно (randomization), обычно 50/50 или 90/10.
Метрика. Primary — целевая, которую хотим улучшить. Secondary — помогают интерпретировать. Guardrail — защитные, не должны просесть.
Статистическая значимость. P-value — вероятность увидеть такой эффект при условии что разницы нет. Обычно alpha = 0.05.
MDE (Minimum Detectable Effect). Минимальный эффект, который мы можем заметить при данном размере выборки. Связан с размером выборки: чем меньше MDE — тем больше нужна выборка.
Размер выборки (sample size). Зависит от baseline-метрики, MDE, alpha, power (обычно 0.8). Калькулятор — обязательный инструмент PM.
Подробнее — A/B-тесты для PM с нуля, размер выборки A/B, p-value простыми словами.
Типичные вопросы на собесе
«Как выбрать primary-метрику для A/B?» Должна быть: (а) измеримой за время эксперимента; (б) связанной с долгосрочной целью продукта; (в) чувствительной к изменениям; (г) понятной команде. Часто это «proxy» долгосрочной метрики (D7 retention proxy для долгосрочного retention).
«Что такое MDE и как его выбрать?» Минимальный эффект, который мы можем заметить. Выбирается из бизнес-смысла («нам интересен прирост от 2%») и доступной выборки. Если выборки мало — MDE растёт, эксперимент менее чувствителен.
«Что такое peeking и почему это проблема?» Подглядывание — проверка статзначимости до окончания запланированного эксперимента. Проблема: повышает false positive. Решение: фиксировать длительность заранее или использовать sequential testing.
«Что такое SRM (Sample Ratio Mismatch)?» Несоответствие реального распределения юзеров запланированному. Если планировали 50/50, а получилось 47/53 — что-то сломано (баг в распределении, потерянные события). SRM — guardrail-метрика, эксперимент с SRM нельзя интерпретировать.
«Эксперимент дал статзначимый рост primary, но падение revenue. Что делать?» (1) Проверить, был ли revenue в списке guardrail. (2) Проанализировать сегменты — может рост у одних, падение у других. (3) Подумать, что важнее в долгосрочной перспективе. Обычно решение — НЕ катить, пока не разберёмся.
«Размер выборки 50K, alpha 0.05, baseline 5%. Какой MDE детектируется?» Точное значение из калькулятора, но PM должен понимать порядок: при таких параметрах MDE будет в районе 0.4-0.5 п.п. (8-10% относительный). Зубрить формулу не нужно, нужно понимать связь.
«Когда A/B не работает?» Маленькая выборка (нет достаточной чувствительности), сетевые эффекты (изменение одного юзера влияет на других — как в соцсетях), долгий эффект (метрика проявляется через месяцы), регулятор (нельзя случайно показывать разные цены).
Подводные камни экспериментов
Multiple testing problem. Если тестируешь 20 метрик с alpha = 0.05, по случайности 1 будет «значимой». Решения: поправка Бонферрони, разделение на primary и guardrail.
Novelty effect. Юзеры реагируют на новизну, эффект пропадает через 2-4 недели. Запустить эксперимент на 7 дней — рискованно. Длинные эксперименты или повторный замер через месяц.
Selection bias. Если рандомизация не работает (например, тестовая группа получила больше power users из-за бага) — все выводы под вопросом.
Network effects. Изменение в продукте может «утекать» из тестовой группы в контрольную через социальное взаимодействие. Решение: cluster-based randomization (рандомизация по группам, не по юзерам).
Stop-decision bias. Решение «остановим раньше, потому что значимо» = подглядывание. Длительность фиксируется заранее.
Дизайн эксперимента — чек-лист от PM
- Гипотеза. «Если изменим X, то Y вырастет на N%, потому что [механизм]». Без механизма — гипотеза слабая.
- Primary metric. Одна, измеримая за время эксперимента.
- Secondary + guardrail. 2-3 secondary для интерпретации, 2-3 guardrail чтобы не сломать побочное.
- Размер выборки и длительность. Рассчитать из baseline, MDE, alpha, power.
- Сегменты. По каким разрезам анализировать (новые/старые, платформа, гео).
- Stop-rules. Когда останавливаем досрочно (только при критическом падении guardrail).
Частые ошибки PM
Запускать «попробуем что-то». Без гипотезы и метрики эксперимент бесполезен.
Подглядывать. «Посмотрим через 3 дня, если что — остановим». Это убивает значимость.
Игнорировать guardrail. Рост primary без проверки secondary/guardrail — наполовину сделанная работа.
Не сегментировать. Среднее по всем юзерам скрывает разные реакции. Сегментация — обязательный шаг анализа.
Запускать на маленькой выборке. Если MDE 5%, а трафика на эксперимент 5K — детектировать сможем эффект 30%+. Большинство нормальных продуктовых эффектов меньше.
Зубрить «p-value < 0.05». PM должен понимать смысл, а не правило.
FAQ
Сколько A/B должен запускать PM в году?
Зависит от продукта и масштаба компании. Малый продукт — 5-10 в год. Большая команда в технологической компании — 20-50. Главное — не количество, а проверка важных гипотез.
Что делать, если результаты пограничные (p = 0.06)?
Не катить с натяжкой. Если эффект бизнес-значимый, продлить эксперимент. Если нет — пересмотреть гипотезу.
Когда A/B не нужен?
(а) Обязательные изменения (compliance, законы). (б) Очевидно работающие фиксы багов. (в) Несрочно — собирай данные через observational analysis.
Как PM спорить с инженерным руководителем про дизайн A/B?
С данными. «При нашей выборке MDE 5% детектируется за 10 дней — это укладывается в roadmap». Спор без цифр — спор о мнениях.
Что важнее на собесе — формулы или интуиция?
Интуиция и понимание trade-off-ов. Формулу выборки знает калькулятор. PM ценится за то, что задаёт правильные вопросы перед запуском эксперимента и правильно интерпретирует результат.