Question 1

Команда хочет оценивать успех по 6 метрикам сразу и «выбирать лучшую после теста». Как корректнее поступить до старта `A/B test`?

Accepted Answer

Одна `primary metric` снижает риск «найти победу» случайно, а `guardrail metric` ограничивает риск. Когда метрик успеха много, легко выбрать «понравившуюся» постфактум и получить неверное решение. Практика — заранее определить `primary metric`, по которой принимается решение, и список диагностических показателей. `guardrail metric` фиксируют как ограничения: если они ухудшаются, даже рост `primary metric` может быть неприемлем.

Question 2

Тест показал улучшение `primary metric` и отсутствие проблем по `guardrail metric`. Какой план `rollout` чаще всего считается наиболее безопасным?

Accepted Answer

Поэтапный `rollout` снижает риск и позволяет заметить деградацию `guardrail metric` на раннем этапе. Даже успешный `A/B test` может не покрыть редкие баги, нагрузки или новые сегменты трафика. Поэтому часто делают постепенный `rollout` с контролем `guardrail metric` (стабильность, ошибки, отписки) и готовностью откатиться. Это превращает запуск в управляемый процесс, а не в одноразовое решение.

Question 3

Вы тестируете изменение в рекомендациях, и один пользователь может зайти несколько раз. Какой выбор единицы рандомизации чаще всего снижает риск смешения `control/treatment` для одного и того же человека?

Accepted Answer

Для большинства продуктовых метрик безопаснее фиксировать вариант на уровне пользователя, чтобы не смешивать `control/treatment`. Если один пользователь видит разные варианты, его поведение может зависеть от сравнения или путаться, и эффект станет трудно интерпретировать. Рандомизация по пользователю помогает избежать контаминации: человек остаётся либо в `control`, либо в `treatment`. Это особенно важно, когда `primary metric` измеряется на уровне пользователя или заказа.

Question 4

После запуска вы выяснили, что часть пользователей видит `treatment` на вебе и `control` в приложении из-за разных систем флагов. В чём главная проблема?

Accepted Answer

Смешение `control/treatment` для одного пользователя размывает различия и ломает интерпретацию эффекта. Если один и тот же пользователь получает разные варианты в разных каналах, то сравнение групп перестаёт быть чистым. `control` может частично «заражаться» `treatment` и наоборот, из-за чего эффект занижается или становится непредсказуемым. Обычно это решают единым источником флагов или консистентным ключом назначения варианта.

Question 5

В тесте `primary metric` растёт, но `guardrail metric` по ошибкам и крэшам ухудшается. Какое действие наиболее корректно?

Accepted Answer

`guardrail metric` — это ограничение риска: при ухудшении запуск опасен, даже если `primary metric` улучшается. Смысл `guardrail metric` — защищать качество продукта и стабильность. Рост `primary metric` может быть краткосрочным и не оправдывать ухудшение ошибок или крашей. Правильный процесс — остановить воздействие, локализовать проблему и повторить проверку после исправления.

A/B-тесты в продуктовой аналитике: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Продуктовая аналитика