Метрики и guardrail-метрики: вопросы для собеседования (часть 2)

Выбор основной метрики, вспомогательных и guardrail-метрик — критический этап проектирования эксперимента. Guardrail-метрики защищают от негативных побочных эффектов: например, рост конверсии не должен сопровождаться падением retention. На собеседовании просят спроектировать систему метрик для конкретного эксперимента.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 610 из 20

6Вы тестируете новый экран оплаты; цель — увеличить число завершённых покупок. Какая метрика наиболее логична как `primary metric` для решения «выкатывать или нет»?
AКонверсия в оплаченный заказ на пользователя (или на сессию) среди тех, кто увидел экран
BКликабельность кнопки «Оплатить»
CКоличество просмотров экрана оплаты
DСреднее время на экране оплаты
Ответ: `primary metric` должна напрямую отражать итоговую цель эксперимента, а не промежуточные шаги.

Если цель — больше завершённых покупок, то метрика должна измерять именно оплату, а не клики или просмотры. Промежуточные показатели часто полезны как `secondary metrics`, но по ним легко сделать неверный вывод. Например, клики могут вырасти из-за путаницы, а время на экране — из-за трения в процессе оплаты.

7Вы улучшаете рекомендации, и команда спорит, что считать успехом: `CTR`, добавления в корзину или выручку. Как лучше зафиксировать метрики перед запуском?
AСделать 3 `primary metric` и выбрать победителя по любой улучшившейся метрике
BВыбрать один `OEC` как `primary metric`, а остальные оставить как `secondary metrics` для диагностики
CНе выбирать метрики заранее и решить после теста, какая больше понравится
DВыбрать `CTR` как `primary metric`, потому что он быстрее реагирует
Ответ: Один `OEC` как `primary metric` снижает риск противоречивых выводов, а `secondary metrics` помогают понять механизм эффекта.

Когда метрик успеха много, легко «найти победу» случайно и принять неправильное решение. Практичнее заранее выбрать один `primary metric` (часто в виде `OEC`), который ближе всего к ценности продукта или бизнеса. Остальные метрики фиксируют как `secondary metrics`, чтобы объяснить изменения и проверить, не появились ли нежелательные побочные эффекты.

8Перед анализом результата вы проверяете `invariant metrics`. Какая метрика чаще всего является `invariant metrics` в онлайн A/B тесте?
AКонверсия в покупку
BДоля трафика/пользователей, попавших в A и B (плановое соотношение групп)
CВыручка на пользователя
DСредний чек
Ответ: `invariant metrics` должны оставаться одинаковыми между группами, потому что эксперимент не должен на них влиять.

Проверка доли распределения по группам помогает убедиться, что рандомизация и пайплайн назначения работают корректно. Если группы сильно отличаются по размеру или составу, остальные выводы становятся подозрительными. `invariant metrics` обычно проверяют до интерпретации `primary metric` и `secondary metrics`.

9Во время эксперимента маркетинг привёл больше трафика, поэтому общая выручка выросла в обеих группах. Какая метрика лучше для сравнения вариантов с учётом `normalization`?
AОбщая выручка за период в каждой группе
BВыручка на пользователя или на сессию (нормализованная метрика)
CКоличество показов страниц за период
DКоличество дней, которые длился эксперимент
Ответ: `normalization` помогает сравнивать варианты при разном объёме трафика, переводя метрики в формат «на пользователя» или «на сессию».

Абсолютная выручка сильно зависит от того, сколько пользователей пришло в каждую группу. При изменениях трафика корректнее использовать метрики на единицу наблюдения, например выручку на пользователя, чтобы сравнить поведение и ценность. Это также облегчает сравнение период-к-периоду и снижает риск принять решение из-за внешнего притока трафика.

10В тесте `primary metric` вырос, но `guardrail metrics` показывают рост обращений в поддержку и падение рейтинга приложения. Какое решение наиболее корректно?
AВыкатывать, потому что `primary metric` важнее любых ограничений
BВыкатывать, если рост `primary metric` статистически значим
CНе выкатывать или остановить тест и разобраться с причиной ухудшения `guardrail metrics`
DИгнорировать `guardrail metrics`, если ухудшение «небольшое на глаз»
Ответ: Нарушение `guardrail metrics` означает, что запуск может нанести вред, даже если `primary metric` улучшился.

Задача `guardrail metrics` — остановить рискованные изменения и защитить пользователей и бизнес. Если они ухудшаются, это повод пересмотреть решение: доработать фичу, ограничить аудиторию или изменить дизайн. Принятие победы только по `primary metric` часто приводит к долгосрочному ущербу.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМножественное тестированиеQA, SRM и раскаткаRatio-метрики и бутстрепРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED