Вы хотите применить CUPED с ковариатой sessions_per_user за период до эксперимента, но эти данные есть только у части пользователей, и доля таких пользователей различается между группами A и B. Какой главный риск?
AРиска фактически нет, потому что
CUPED автоматически корректирует разницу долей пользователей с пропусками в данных.BЕсли исключить пользователей без данных за период до эксперимента, можно нарушить сопоставимость групп и получить смещённую оценку эффекта.
CБудет только более широкий доверительный интервал, но среднее значение разницы между группами останется несмещённым после фильтра.
DЭто гарантирует рост наблюдаемого прироста, потому что в анализе останутся только активные пользователи с накопленной историей событий.
Правильный ответ. Если данных за период до эксперимента нет у всех и доли пропусков различаются между A и B, фильтрация по наличию ковариаты может нарушить сопоставимость и дать смещение.
Разбор
Сравнение групп A и B корректно опирается на исходную случайную раскладку пользователей. Если вы выбрасываете часть пользователей из-за отсутствия данных за период до эксперимента, вы меняете популяцию анализа. Когда доли пропусков различаются между A и B или связаны с поведением, появляется риск смещения оценки. Лучше заранее обеспечить одинаковый расчёт ковариаты или аккуратно продумать обработку пропусков, не нарушая сопоставимость групп.
Проверь себя · 1/3разбор после ответа
В методе CUPED (корректировка по предтестовой ковариате) используется коэффициент
theta. Как его обычно получают на практике?Ещё вопросы по теме «Снижение дисперсии и CUPED»
- Зачем в `A/B` тестах применяют методы снижения дисперсии вроде `CUPED`?
- Какие данные нужны, чтобы применить `CUPED` в эксперименте по метрике `revenue_per_user`?
- Вы тестируете новый экран, целевая метрика — конверсия. Какую ковариату нельзя использовать в `CUPED`, чтобы не получить утечку и смещение оценки?
- Что означает блокирование (blocking) в дизайне `A/B`-теста?
- В эксперименте конверсия сильно различается у новых и возвращающихся пользователей, а трафик ограничен. Какой шаг лучше всего снижает шум и риск перекоса сегментов?
- Все вопросы по «Снижение дисперсии и CUPED» →