Вы хотите применить CUPED с ковариатой sessions_per_user за период до эксперимента, но эти данные есть только у части пользователей, и доля таких пользователей различается между группами A и B. Какой главный риск?

AРиска фактически нет, потому что CUPED автоматически корректирует разницу долей пользователей с пропусками в данных.
BЕсли исключить пользователей без данных за период до эксперимента, можно нарушить сопоставимость групп и получить смещённую оценку эффекта.
CБудет только более широкий доверительный интервал, но среднее значение разницы между группами останется несмещённым после фильтра.
DЭто гарантирует рост наблюдаемого прироста, потому что в анализе останутся только активные пользователи с накопленной историей событий.
Правильный ответ. Если данных за период до эксперимента нет у всех и доли пропусков различаются между A и B, фильтрация по наличию ковариаты может нарушить сопоставимость и дать смещение.

Разбор

Сравнение групп A и B корректно опирается на исходную случайную раскладку пользователей. Если вы выбрасываете часть пользователей из-за отсутствия данных за период до эксперимента, вы меняете популяцию анализа. Когда доли пропусков различаются между A и B или связаны с поведением, появляется риск смещения оценки. Лучше заранее обеспечить одинаковый расчёт ковариаты или аккуратно продумать обработку пропусков, не нарушая сопоставимость групп.

Проверь себя · 1/3разбор после ответа
В методе CUPED (корректировка по предтестовой ковариате) используется коэффициент theta. Как его обычно получают на практике?
Тренировать A/B в Telegram

Ещё вопросы по теме «Снижение дисперсии и CUPED»