Question 1

В тесте вы заметили, что в варианте B существенно больше пользователей iOS, хотя функция не должна менять платформу. Что это скорее всего означает?

Accepted Answer

Сильные различия по инвариантным метрикам обычно сигнализируют о проблеме назначения вариантов или сбора данных. Если эксперимент не должен влиять на платформу, страну и другие базовые признаки, то их различия между группами подозрительны. Это может быть следствием некорректного таргетинга, перекоса трафика или ошибки в логировании назначения варианта. В такой ситуации важно сначала восстановить валидность теста, а уже потом обсуждать эффект по основным метрикам.

Question 2

В тесте новый онбординг улучшил основную метрику (активацию), но упали повторные визиты и выросли отписки. Как корректнее использовать вторичные метрики в такой ситуации?

Accepted Answer

Вторичные метрики нужны, чтобы понимать последствия и механизмы, даже если основная метрика растёт. Рост основной метрики не гарантирует, что пользовательский опыт и долгосрочная ценность не ухудшились. Вторичные метрики помогают увидеть, где именно возникает проблема, и оценить, приемлем ли компромисс. Часто по ним принимают решение о доработке, ограниченном запуске или выборе другого дизайна эксперимента. Менять основную метрику задним числом или путать её с инвариантной — типичные ошибки анализа.

Question 3

Вариант B увеличил число сессий на пользователя, поэтому общее время в приложении выросло. Почему сравнение общего времени без нормирования может вводить в заблуждение?

Accepted Answer

Без нормирования агрегаты могут расти из-за изменения количества наблюдений, а не из-за изменения поведения. Если пользователи стали заходить чаще, суммарное время неизбежно вырастет даже при том же качестве сессии. Чтобы понять, стало ли использование «лучше» или просто «больше», применяют нормирование — например, время на пользователя или на сессию. Это помогает отделить эффект изменения продукта от эффекта роста или падения активности. Без нормирования агрегаты могут расти из-за изменения количества наблюдений, а не из-за изменения поведения.

Question 4

Вы планировали сплит 50/50, но стабильно видите 57/43 по пользователям в A/B-тесте. Какое объяснение и действие наиболее корректные?

Accepted Answer

`SRM` (Sample Ratio Mismatch) — это сигнал проблем со сплитом, который часто обнаруживают через защитные метрики ещё до анализа эффекта. Существенный и стабильный перекос в долях групп часто означает, что часть трафика не случайно распределяется или где-то ломается логика назначения. В таком случае статистические выводы по основной метрике могут быть ненадёжными. Правильный шаг — остановиться и проверить пайплайн: экспериментальные флаги, таргетинг, логирование, фильтры и дедупликацию пользователей.

Question 5

В тесте средний чек вырос, но количество заказов и доля повторных покупок снизились. Почему так могло случиться и что сделать первым делом?

Accepted Answer

Средние показатели могут меняться из-за состава аудитории, поэтому нужно проверять сегменты и применять корректную нормализацию. Рост среднего чека может происходить не потому, что все стали покупать больше, а потому что часть пользователей с малыми покупками перестала покупать. Это типичная ловушка интерпретации, особенно при изменении ассортимента, цен или порога бесплатной доставки. Практично проверить страховочные метрики по воронке, разрезы по сегментам и метрики, нормализованные на пользователя или заказ, чтобы понять реальную динамику. Объявлять тест успешным или винить только `SRM` без проверок — обе крайности.

Метрики и guardrail-метрики: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты