Вы хотите применить CUPED (Controlled-experiment Using Pre-Experiment Data) с covariate (ковариата — вспомогательная переменная) pre-period sessions_per_user, но данные pre-period есть только у части пользователей, и доля таких пользователей отличается между A и B. Какой главный риск?

AРиска нет, CUPED (Controlled-experiment Using Pre-Experiment Data) автоматически корректирует разницу долей.
BЕсли исключить пользователей без pre-period, можно нарушить сопоставимость групп и получить bias в оценке effect.
CБудет только более широкий confidence interval, но среднее останется несмещённым независимо от фильтра.
DЭто гарантирует рост uplift, потому что останутся только активные пользователи.
Правильный ответ. Если pre-period есть не у всех и доли пропусков различаются между A/B, фильтрация по наличию ковариаты может нарушить сопоставимость и дать bias.

Разбор

Сравнение A и B корректно опирается на исходную randomization. Если вы выбрасываете часть пользователей из-за отсутствия pre-period данных, вы меняете популяцию анализа. Когда доли пропусков различаются между A и B или связаны с поведением, появляется риск смещения. Лучше заранее обеспечить одинаковый расчёт pre-period или аккуратно продумать обработку пропусков без нарушения сравнимости.

Проверь себя · 1/3разбор после ответа
Эксперимент проводится на офлайн-точках, а метрика revenue сильно зависит от store и day-of-week. Как корректнее применить blocking при назначении A и B?
Тренировать A/B в Telegram

Ещё вопросы по теме «Снижение дисперсии и CUPED»