Вы хотите применить `CUPED` с ковариатой `sessions_per_user` за период до эксперимента, но эти данные есть только у части пользователей, и доля таких пользователей различается между группами A и B. Какой главный риск?

Question

Карьерник · Accepted Answer

Правильный ответ: Если исключить пользователей без данных за период до эксперимента, можно нарушить сопоставимость групп и получить смещённую оценку эффекта.. Если данных за период до эксперимента нет у всех и доли пропусков различаются между A и B, фильтрация по наличию ковариаты может нарушить сопоставимость и дать смещение. Сравнение групп A и B корректно опирается на исходную случайную раскладку пользователей. Если вы выбрасываете часть пользователей из-за отсутствия данных за период до эксперимента, вы меняете популяцию анализа. Когда доли пропусков различаются между A и B или связаны с поведением, появляется риск смещения оценки. Лучше заранее обеспечить одинаковый расчёт ковариаты или аккуратно продумать обработку пропусков, не нарушая сопоставимость групп.

Разбор

Ещё вопросы по теме «Снижение дисперсии и CUPED»