Метрики и guardrail-метрики: вопросы для собеседования (часть 4)
Выбор основной метрики, вспомогательных и guardrail-метрик — критический этап проектирования эксперимента. Guardrail-метрики защищают от негативных побочных эффектов: например, рост конверсии не должен сопровождаться падением retention. На собеседовании просят спроектировать систему метрик для конкретного эксперимента.
Вопросы 16–20 из 20
16Стейкхолдеры предлагают считать успех теста одновременно ростом конверсии, выручки и времени в приложении. Какой подход к метрикам наиболее здравый?
AСчитать победой рост любой метрики из списка, чтобы быстрее принять решение
BВыбрать метрику, где получилась самая маленькая p-value, и назвать её `primary metric`
CОтказаться от `primary metric` и сравнить всё, что есть, без заранее заданных ролей
DВыбрать один `primary metric` или `OEC` для решения, а остальные явно оформить как `secondary metrics` и/или `guardrail metrics`
Ответ: Чёткое разделение на `primary metric`, `secondary metrics` и `guardrail metrics` помогает принимать решение без «метрического хаоса».
Несколько `primary metric` часто дают конфликтующие сигналы и повышают шанс выбрать победителя случайно. Лучше заранее договориться об одном решающем показателе, близком к цели продукта, например `OEC`. Остальные метрики полезны, но их роль должна быть определена заранее: диагностика (`secondary metrics`) или ограничения рисков (`guardrail metrics`).
17Вы тестируете купон: `primary metric` была «число заказов». Заказы выросли, но маржа заметно упала. Как корректнее пересобрать метрики на будущее?
AОставить «число заказов» как единственный критерий, ведь это рост
BСделать `primary metric` «средний чек», потому что он ближе к деньгам
CСделать `primary metric` ближе к ценности, например прибыль/маржа на пользователя как `OEC`, а число заказов оставить как `secondary metrics` и добавить ограничения через `guardrail metrics`
DИгнорировать маржу, потому что `secondary metrics` не важны
Ответ: Метрики должны отражать цель эксперимента и защищать бизнес через `guardrail metrics`, иначе возможна «оптимизация не того».
Купоны часто увеличивают количество заказов за счёт скидок, но ухудшают прибыльность. Если бизнес-цель — улучшить итоговую ценность, то `OEC` и `primary metric` должны быть ближе к прибыли или марже, а заказы и средний чек полезнее как `secondary metrics`. Дополнительно ставят `guardrail metrics`, чтобы не допустить критического падения маржинальности или роста возвратов.
18Команда выбрала `primary metric` — `CTR` по рекомендательным карточкам. В тесте `CTR` вырос, но продажи и выручка упали. Какой вывод наиболее вероятен?
AВы выбрали не тот `primary metric`: нужно приблизить `OEC` к покупке, а `CTR` оставить как `secondary metrics`
BЭто обязательно `SRM` (Sample Ratio Mismatch), потому что `CTR` не может расти без продаж
CРезультат можно игнорировать, если `guardrail metrics` не ухудшились
DНужно срочно убрать `secondary metrics`, чтобы они не мешали
Ответ: Оптимизация по неверной `primary metric` может улучшать клики, но ухудшать реальную ценность для продукта и бизнеса.
Клики могут расти за счёт более агрессивных или «кликабельных» рекомендаций, которые не приводят к покупке. В таких случаях `CTR` лучше использовать как `secondary metrics`, а `primary metric` или `OEC` привязывать к конечной ценности, например к покупке или выручке на пользователя. Это снижает риск «оптимизации не того» и метрик-ловушек.
19В целом конверсия в заказ выросла, но по разрезу RU/KZ видно падение в RU и рост в KZ, при этом доля трафика по странам между группами отличается. Что корректнее сделать дальше?
AСмотреть только общий результат: сегменты всегда шумные
BПроверить сегменты и микс аудитории, убедиться, что `invariant metrics` по составу не нарушены, и интерпретировать эффект с учётом возможного эффекта смешения
CУдалить страну RU из анализа, чтобы не мешала
DПризнать победу варианта B, потому что общий показатель вырос
Ответ: Эффект может быть искажён сдвигом состава аудитории, поэтому важно проверять сегменты и `invariant metrics` по миксу.
Агрегированный рост может возникнуть из-за того, что в одном варианте оказалось больше пользователей из сегмента с более высокой базовой конверсией. Это похоже на эффект смешения, известный как парадокс Симпсона. Практический шаг — проверить распределения по ключевым сегментам как `invariant metrics` и разбирать результат по сегментам, а не принимать решение только по общей цифре.
20Вы тестируете ценовой баннер, но на неделе эксперимента прошла распродажа, сильно влияющая на конверсию. Что поможет корректнее оценить эффект с учётом `seasonality` и `normalization`?
AСравнить только абсолютные значения конверсии в варианте B без контроля
BУбрать дни распродажи только из экспериментальной группы, чтобы «очистить» эффект
CСравнивать вариант с контролем в те же даты, использовать нормализованные метрики (например, на пользователя) и проверять стабильность эффекта по дням
DИгнорировать распродажу, если `primary metric` значимо вырос
Ответ: Контроль по тем же датам и `normalization` помогают отделить эффект фичи от внешних событий и `seasonality`.
Распродажа меняет поведение пользователей и базовый уровень конверсии, поэтому важно сравнивать варианты синхронно, а не с разными периодами. Нормализованные метрики снижают влияние колебаний трафика и активности. Дополнительно полезно смотреть динамику по дням, чтобы понять, не «рисует» ли эффект один особый день.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram