Question 1

Команда раскатила успешный A/B-тест на всех пользователей. Через полгода продакт хочет проверить, сохранился ли долгосрочный эффект. Какой подход позволит это измерить?

Accepted Answer

Холдаут-группа — небольшая доля пользователей, оставленная на старой версии для измерения долгосрочного эффекта. После раскатки сравнить «до и после» некорректно: изменились сезон, аудитория, другие фичи. Холдаут-группа (обычно 1-5% трафика) остаётся на старой версии на месяцы. Сравнивая её метрики с основной аудиторией, можно измерить кумулятивный долгосрочный эффект. Это единственный надёжный способ, потому что группы существуют в одних и тех же внешних условиях.

Question 2

Команда сначала выкатывает новую версию корзины на 2% трафика (канареечный релиз), а через сутки запускает полноценный A/B-тест на 50/50. Зачем нужны оба этапа?

Accepted Answer

Канареечный релиз ловит технические проблемы на малом трафике, а A/B-тест — измеряет бизнес-эффект на статистически значимой выборке. Канареечный (phased) релиз — это постепенная раскатка на 1-5% трафика для выявления крашей, ошибок, деградации производительности. Даже серьёзный баг затронет малую долю пользователей. A/B-тест требует больших выборок для статистической мощности и не годится для раннего обнаружения поломок. Двухэтапный процесс сочетает безопасность и точность измерения.

Question 3

Вы получили статистически значимую разницу, но `lift` очень маленький. Что лучше сделать перед решением о запуске?

Accepted Answer

Решение о запуске должно учитывать и статистику, и практический `effect size`. Даже маленький `lift` может быть важен для крупного продукта, но может быть бессмысленен при высоких издержках. Поэтому полезно перевести эффект в понятные бизнес-показатели и сравнить с затратами и рисками. `A/B test` отвечает на вопрос о причинности, но решение о внедрении зависит от ценности эффекта.

Question 4

Аналитик посчитал эффект нового чекаута двумя способами: по intention-to-treat вышло +2% к конверсии, а по per-protocol (только среди увидевших изменение) — +7%. Менеджер хочет использовать per-protocol как основной результат. В чём проблема?

Accepted Answer

Per-protocol анализ завышает эффект, потому что включает только активных пользователей, а не всю выборку. Per-protocol анализ включает только пользователей, которые реально увидели изменение. Проблема в том, что эти пользователи систематически отличаются от исключённых — они более активны, чаще доходят до нужного экрана. Это вносит смещение выборки и завышает результат. ITT даёт честную оценку для бизнеса: именно столько компания получит, раскатив изменение на всех.

Question 5

Команда одновременно запускает два A/B-теста: новая главная страница и новый алгоритм рекомендаций. Оба теста влияют на одну метрику — конверсию в покупку. Как минимизировать риск неверных выводов?

Accepted Answer

При параллельных тестах на одну метрику нужно ортогональное разбиение и проверка взаимодействия. Ортогональное разбиение означает, что назначение пользователя в группу одного теста не зависит от его группы в другом тесте. Это позволяет запускать тесты параллельно. Но если изменения взаимодействуют (новая страница + новые рекомендации усиливают друг друга), эффект каждого теста по отдельности будет неточным. Нужно проверять наличие взаимодействия через анализ четырёх комбинаций групп.

Основы A/B-тестирования: вопросы для собеседования (часть 6)

Вопросы 26–30 из 40

Хотите тренировать интерактивно?

Другие темы: A/B-тесты