Question 1

В эксперименте обнаружили несоответствие долей групп: доля пользователей в варианте B заметно выше ожидаемой. Поможет ли `CUPED` решить эту проблему?

Accepted Answer

Нет: `CUPED` снижает дисперсию при корректной рандомизации, но не исправляет проблемы назначения трафика по группам. Несоответствие долей групп обычно сигнализирует о проблеме в назначении вариантов или в трекинге событий. Если базовая рандомизация сломана, любые методы снижения дисперсии, включая `CUPED`, не гарантируют корректности и могут дать вводящие в заблуждение результаты. Поэтому сначала проверяют источники несоответствия, а уже потом применяют `CUPED` для повышения точности оценки эффекта.

Question 2

В методе CUPED (корректировка по предтестовой ковариате) используется коэффициент `theta`. Как его обычно получают на практике?

Accepted Answer

В CUPED коэффициент `theta` оценивают из данных так, чтобы максимально снизить дисперсию метрики и сохранить корректность. Интуитивно `theta` показывает, насколько сильно стоит учитывать предтестовую ковариату при корректировке исхода. Его оценивают по стандартной процедуре (по сути коэффициент регрессии исхода на ковариату), не подгоняя под желаемый результат. Ручной подбор `theta` ради меньшего p-value превращает корректировку в подгонку и портит статистический вывод. Фиксировать единицу или брать значение из прошлых тестов тоже нельзя — оно зависит от конкретных данных.

Question 3

Чем `CUPED` (Controlled-experiment Using Pre-Experiment Data) отличается от подхода сравнивать метрику как `post - pre` между группами `A` и `B`?

Accepted Answer

`CUPED` оценивает оптимальный вес `theta` для предтестовой ковариаты; простое `post - pre` — это фиксированный вес и часто не оптимален по дисперсии. И простое `post - pre`, и `CUPED` пытаются учесть базовый уровень пользователя, чтобы уменьшить шум. Фиксированное вычитание означает, что вес предтестового значения задан заранее и может быть слишком большим или слишком маленьким. `CUPED` оценивает `theta` из данных так, чтобы максимально снизить дисперсию скорректированной метрики при корректных предпосылках. Поэтому на практике `CUPED` обычно даёт более стабильную оценку эффекта при том же объёме выборки.

Question 4

После применения `CUPED` для метрики `revenue_per_user` вы получили оценку эффекта +0.15. Как корректнее всего интерпретировать этот результат?

Accepted Answer

`CUPED` сохраняет единицы метрики; выводы (доверительный интервал и тест) нужно строить по скорректированной метрике и оценивать практическую значимость. `CUPED` строит новый исход, корректируя его на предэкспериментальную ковариату, но измерения остаются в тех же единицах (например, рубли на пользователя). Поэтому разницу между группами A и B можно сравнивать с бизнес-порогом в исходных единицах. Важно строить доверительный интервал и тест именно по скорректированной метрике, потому что меняется дисперсия. Если интервал узкий и лежит ниже порога полезности, это сигнал о слабой практической ценности эффекта.

Question 5

После применения `CUPED` дисперсия метрики стала в 2 раза меньше. Что это примерно означает для размера выборки, чтобы детектировать тот же эффект при той же мощности?

Accepted Answer

Если дисперсия упала в 2 раза, для детекта того же эффекта часто нужно примерно в 2 раза меньше наблюдений (приближённо `N ~ variance`). Если дисперсия уменьшилась в 2 раза, стандартная ошибка обычно падает, и сигнал легче отделить от шума. Поэтому для детекта того же эффекта часто требуется примерно в 2 раза меньше наблюдений. Это приближение: точная экономия зависит от распределения метрики, дизайна теста и выбранного критерия. Уменьшение в 4 раза предполагало бы пропорциональность объёма квадрату дисперсии, что не соответствует формуле размера выборки.

Снижение дисперсии и CUPED: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты