A/B-эксперименты для PM на собеседовании

Q: Сколько A/B должен запускать PM в году?

Зависит от продукта и масштаба компании. Малый продукт — 5-10 в год. Большая команда в технологической компании — 20-50. Главное — не количество, а проверка важных гипотез.

Q: Что делать, если результаты пограничные (p = 0.06)?

Не катить с натяжкой. Если эффект бизнес-значимый, продлить эксперимент. Если нет — пересмотреть гипотезу.

Q: Когда A/B не нужен?

(а) Обязательные изменения (compliance, законы). (б) Очевидно работающие фиксы багов. (в) Несрочно — собирай данные через observational analysis.

Q: Как PM спорить с инженерным руководителем про дизайн A/B?

С данными. «При нашей выборке MDE 5% детектируется за 10 дней — это укладывается в roadmap». Спор без цифр — спор о мнениях.

Q: Что важнее на собесе — формулы или интуиция?

Интуиция и понимание trade-off-ов. Формулу выборки знает калькулятор. PM ценится за то, что задаёт правильные вопросы перед запуском эксперимента и правильно интерпретирует результат.

Проверь себя · 1/3разбор после ответа

В A/B-тесте новый онбординг включается только после события signup_complete. Часть посетителей уходит до регистрации. Как корректнее считать activation rate для сравнения вариантов?

Зачем PM спрашивают про A/B

Эксперименты — главный инструмент принятия продуктовых решений в большинстве сильных продуктовых компаний. PM, который не разбирается в A/B, не может ответственно владеть метрикой: «фича работает» без эксперимента — мнение, а не факт. На собесе продакт-менеджера A/B-тесты — обязательный блок: либо отдельным раундом, либо как часть метрик-интервью.

От PM не ждут уровня data scientist — глубоких знаний статистики. Ждут понимания идеи (как проверить гипотезу), типичных ловушек (peeking, SRM, novelty effect) и умения говорить на одном языке с аналитиком и DS-командой.

Базовая терминология

Контроль и тест. Control — текущая версия, test — новая. Аудитория разделяется случайно (randomization), обычно 50/50 или 90/10.

Метрика. Primary — целевая, которую хотим улучшить. Secondary — помогают интерпретировать. Guardrail — защитные, не должны просесть.

Статистическая значимость. P-value — вероятность увидеть такой эффект при условии что разницы нет. Обычно alpha = 0.05.

MDE (Minimum Detectable Effect). Минимальный эффект, который мы можем заметить при данном размере выборки. Связан с размером выборки: чем меньше MDE — тем больше нужна выборка.

Размер выборки (sample size). Зависит от baseline-метрики, MDE, alpha, power (обычно 0.8). Калькулятор — обязательный инструмент PM.

Подробнее — A/B-тесты для PM с нуля, размер выборки A/B, p-value простыми словами.

Типичные вопросы на собесе

«Как выбрать primary-метрику для A/B?» Должна быть: (а) измеримой за время эксперимента; (б) связанной с долгосрочной целью продукта; (в) чувствительной к изменениям; (г) понятной команде. Часто это «proxy» долгосрочной метрики (D7 retention proxy для долгосрочного retention).

«Что такое MDE и как его выбрать?» Минимальный эффект, который мы можем заметить. Выбирается из бизнес-смысла («нам интересен прирост от 2%») и доступной выборки. Если выборки мало — MDE растёт, эксперимент менее чувствителен.

«Что такое peeking и почему это проблема?» Подглядывание — проверка статзначимости до окончания запланированного эксперимента. Проблема: повышает false positive. Решение: фиксировать длительность заранее или использовать sequential testing.

«Что такое SRM (Sample Ratio Mismatch)?» Несоответствие реального распределения юзеров запланированному. Если планировали 50/50, а получилось 47/53 — что-то сломано (баг в распределении, потерянные события). SRM — guardrail-метрика, эксперимент с SRM нельзя интерпретировать.

«Эксперимент дал статзначимый рост primary, но падение revenue. Что делать?» (1) Проверить, был ли revenue в списке guardrail. (2) Проанализировать сегменты — может рост у одних, падение у других. (3) Подумать, что важнее в долгосрочной перспективе. Обычно решение — НЕ катить, пока не разберёмся.

«Размер выборки 50K, alpha 0.05, baseline 5%. Какой MDE детектируется?» Точное значение из калькулятора, но PM должен понимать порядок: при таких параметрах MDE будет в районе 0.4-0.5 п.п. (8-10% относительный). Зубрить формулу не нужно, нужно понимать связь.

«Когда A/B не работает?» Маленькая выборка (нет достаточной чувствительности), сетевые эффекты (изменение одного юзера влияет на других — как в соцсетях), долгий эффект (метрика проявляется через месяцы), регулятор (нельзя случайно показывать разные цены).

Подводные камни экспериментов

Multiple testing problem. Если тестируешь 20 метрик с alpha = 0.05, по случайности 1 будет «значимой». Решения: поправка Бонферрони, разделение на primary и guardrail.

Novelty effect. Юзеры реагируют на новизну, эффект пропадает через 2-4 недели. Запустить эксперимент на 7 дней — рискованно. Длинные эксперименты или повторный замер через месяц.

Selection bias. Если рандомизация не работает (например, тестовая группа получила больше power users из-за бага) — все выводы под вопросом.

Network effects. Изменение в продукте может «утекать» из тестовой группы в контрольную через социальное взаимодействие. Решение: cluster-based randomization (рандомизация по группам, не по юзерам).

Stop-decision bias. Решение «остановим раньше, потому что значимо» = подглядывание. Длительность фиксируется заранее.

Дизайн эксперимента — чек-лист от PM

Гипотеза. «Если изменим X, то Y вырастет на N%, потому что [механизм]». Без механизма — гипотеза слабая.
Primary metric. Одна, измеримая за время эксперимента.
Secondary + guardrail. 2-3 secondary для интерпретации, 2-3 guardrail чтобы не сломать побочное.
Размер выборки и длительность. Рассчитать из baseline, MDE, alpha, power.
Сегменты. По каким разрезам анализировать (новые/старые, платформа, гео).
Stop-rules. Когда останавливаем досрочно (только при критическом падении guardrail).

Частые ошибки PM

Запускать «попробуем что-то». Без гипотезы и метрики эксперимент бесполезен.

Подглядывать. «Посмотрим через 3 дня, если что — остановим». Это убивает значимость.

Игнорировать guardrail. Рост primary без проверки secondary/guardrail — наполовину сделанная работа.

Не сегментировать. Среднее по всем юзерам скрывает разные реакции. Сегментация — обязательный шаг анализа.

Запускать на маленькой выборке. Если MDE 5%, а трафика на эксперимент 5K — детектировать сможем эффект 30%+. Большинство нормальных продуктовых эффектов меньше.

Зубрить «p-value < 0.05». PM должен понимать смысл, а не правило.

FAQ

Сколько A/B должен запускать PM в году?