В эксперименте метрика conversion сильно различается у new_users и returning_users, а трафик ограничен. Какой шаг лучше всего снижает шум и риск перекоса сегментов?
AСделать
stratification по new_users и returning_users и раздавать A и B внутри каждого слоя.BЗапустить без
stratification, а потом анализировать разрезы и проверять баланс сегментов (но это хуже, чем балансировать на дизайне).CИспользовать
CUPED (Controlled-experiment Using Pre-Experiment Data) по post-period conversion как covariate.DИсключить
new_users, чтобы уменьшить variance.Правильный ответ.
stratification по важному сегменту делает состав групп более ровным и снижает шум оценки effect.Разбор
Если сегменты имеют разные базовые уровни conversion, случайный перекос долей сегментов между A и B может имитировать effect. stratification обеспечивает баланс сегментов в каждой группе и часто даёт заметное variance reduction. Это особенно полезно при ограниченном трафике или когда сегменты сильно различаются по поведению.
Проверь себя · 1/3разбор после ответа
Эксперимент проводится на офлайн-точках, а метрика
revenue сильно зависит от store и day-of-week. Как корректнее применить blocking при назначении A и B?Ещё вопросы по теме «Снижение дисперсии и CUPED»
- Зачем в `A/B` тестах применяют методы `variance reduction` вроде `CUPED` (Controlled-experiment Using Pre-Experiment Data)?
- Какие данные нужны, чтобы применить `CUPED` (Controlled-experiment Using Pre-Experiment Data) в эксперименте по метрике `revenue_per_user`?
- Вы тестируете новый экран, целевая метрика `conversion`. Какую `covariate` (ковариата — вспомогательная переменная) нельзя использовать в `CUPED` (Controlled-experiment Using Pre-Experiment Data), чтобы не получить `leakage` (утечка данных между группами) и `bias`?
- Что означает `blocking` в дизайне `A/B` теста?
- Вы хотите применить `CUPED` (Controlled-experiment Using Pre-Experiment Data) с `covariate` (ковариата — вспомогательная переменная) `pre-period` `sessions_per_user`, но данные `pre-period` есть только у части пользователей, и доля таких пользователей отличается между `A` и `B`. Какой главный риск?
- Все вопросы по «Снижение дисперсии и CUPED» →