Снижение дисперсии и CUPED: вопросы для собеседования (часть 3)
CUPED, стратификация, контрольные ковариаты — техники снижения дисперсии позволяют обнаруживать меньшие эффекты при том же размере выборки. На собеседовании спрашивают, как CUPED использует предэкспериментальные данные и на сколько процентов можно сократить дисперсию. Это тема для сильных кандидатов, которые хотят выделиться.
Вопросы 11–15 из 20
11В эксперименте обнаружили `SRM` (Sample Ratio Mismatch): доля пользователей в варианте `B` заметно выше ожидаемой. Поможет ли `CUPED` (Controlled-experiment Using Pre-Experiment Data) решить эту проблему?
AДа, `CUPED` (Controlled-experiment Using Pre-Experiment Data) автоматически исправляет `SRM` (Sample Ratio Mismatch), потому что снижает `variance`.
BДа, если выбрать `covariate` из `pre-period`.
CНет, `CUPED` (Controlled-experiment Using Pre-Experiment Data) не исправляет проблемы `randomization` вроде `SRM` (Sample Ratio Mismatch); сначала нужно найти причину дисбаланса.
DНет, но `stratification` после эксперимента всегда полностью чинит `SRM` (Sample Ratio Mismatch).
Ответ: Нет: `CUPED` (Controlled-experiment Using Pre-Experiment Data) снижает `variance` при корректной рандомизации, но не исправляет проблемы назначения трафика (`SRM` (Sample Ratio Mismatch)).
`SRM` (Sample Ratio Mismatch) обычно сигнализирует о проблеме в назначении вариантов или трекинге. Если базовая рандомизация сломана, любые методы `variance reduction`, включая `CUPED` (Controlled-experiment Using Pre-Experiment Data), не гарантируют корректности и могут дать вводящие в заблуждение результаты. Поэтому сначала проверяют источники `SRM` (Sample Ratio Mismatch), а уже потом применяют `CUPED` (Controlled-experiment Using Pre-Experiment Data) для повышения точности.
12В методе `CUPED` (Controlled-experiment Using Pre-Experiment Data) используется коэффициент `theta`. Как его обычно получают в практическом применении?
AОценивают `theta` по данным так, чтобы минимизировать `variance` скорректированной метрики.
BВсегда ставят `theta` равным 1, это стандарт `CUPED` (Controlled-experiment Using Pre-Experiment Data).
CПодбирают `theta` так, чтобы `p-value` стал меньше `alpha`.
DБерут `theta` из прошлых тестов без пересчёта, чтобы избежать `leakage`.
Ответ: В `CUPED` (Controlled-experiment Using Pre-Experiment Data) `theta` оценивают из данных для максимального `variance reduction` при сохранении корректности.
Интуитивно `theta` говорит, насколько сильно стоит учитывать `pre-period` `covariate` при корректировке исхода. Его оценивают по стандартной процедуре, не подгоняя под желаемый результат. Ручной подбор `theta` ради меньшего `p-value` превращает корректировку в подгонку и портит статистический вывод.
13Чем `CUPED` (Controlled-experiment Using Pre-Experiment Data) отличается от подхода сравнивать метрику как `post-period - pre-period` между `A` и `B`?
A`CUPED` (Controlled-experiment Using Pre-Experiment Data) всегда делает `uplift` в 2 раза больше.
B`CUPED` (Controlled-experiment Using Pre-Experiment Data) применим только к бинарным метрикам, а `post-period - pre-period` только к непрерывным.
C`CUPED` (Controlled-experiment Using Pre-Experiment Data) запрещает использовать `confidence interval`.
D`CUPED` (Controlled-experiment Using Pre-Experiment Data) подбирает оптимальный коэффициент `theta` для `pre-period` `covariate`, а `post-period - pre-period` соответствует фиксированному весу и может быть не оптимален по `variance`.
Ответ: `CUPED` (Controlled-experiment Using Pre-Experiment Data) оценивает оптимальный вес `theta` для `pre-period` ковариаты; простое `post - pre` — это фиксированный вес и часто не оптимален по `variance`.
И `post-period - pre-period`, и `CUPED` (Controlled-experiment Using Pre-Experiment Data) пытаются учесть базовый уровень пользователя, чтобы уменьшить шум. Фиксированное вычитание означает, что вес `pre-period` задан заранее и может быть слишком большим или слишком маленьким. `CUPED` (Controlled-experiment Using Pre-Experiment Data) оценивает `theta` из данных, чтобы максимально снизить `variance` скорректированной метрики при корректных предпосылках. Поэтому в практике `CUPED` (Controlled-experiment Using Pre-Experiment Data) часто даёт более стабильную оценку.
14После применения `CUPED` (Controlled-experiment Using Pre-Experiment Data) для метрики `revenue_per_user` вы получили оценку `effect` +0.15. Как корректнее всего интерпретировать этот результат?
AНельзя интерпретировать в деньгах, потому что `CUPED` (Controlled-experiment Using Pre-Experiment Data) меняет единицы измерения.
BЭто оценка разницы по `CUPED` (Controlled-experiment Using Pre-Experiment Data)-скорректированной метрике в тех же единицах; интерпретировать нужно вместе с `confidence interval`.
CЭто вероятность того, что `H0` неверна.
DЭто означает, что `pre-period` выручка выросла на 0.15.
Ответ: `CUPED` (Controlled-experiment Using Pre-Experiment Data) сохраняет единицы метрики; выводы (CI/тест) нужно строить по скорректированной метрике и оценивать практическую значимость.
`CUPED` (Controlled-experiment Using Pre-Experiment Data) строит новый исход, корректируя его на `pre-period` `covariate`, но измерения остаются в тех же единицах (например, деньги на пользователя). Поэтому разницу между `A` и `B` можно сравнивать с бизнес-порогом. Важно строить `confidence interval` и тест по скорректированной метрике, потому что меняется `variance`. Если интервал узкий и лежит ниже порога полезности, это сигнал о слабой практической ценности.
15После применения `CUPED` (Controlled-experiment Using Pre-Experiment Data) `variance` метрики стала в 2 раза меньше. Что это примерно означает для нужного размера выборки, чтобы детектировать тот же `effect` при той же мощности?
AНужна в 2 раза большая выборка.
BВыборка не изменится, потому что `CUPED` (Controlled-experiment Using Pre-Experiment Data) влияет только на среднее.
CНужна в 4 раза меньшая выборка.
DНужна примерно в 2 раза меньшая выборка, потому что требуемый объём часто масштабируется примерно пропорционально `variance`.
Ответ: Если `variance` стала в 2 раза меньше, то для детекта того же эффекта часто нужно примерно в 2 раза меньше наблюдений (приближённо `N ~ variance`).
Если вы уменьшили `variance` в 2 раза, то `standard error` обычно падает, а сигнал легче отделить от шума. Поэтому для детекта того же `effect` часто требуется примерно в 2 раза меньше наблюдений. Это приближение: точная экономия зависит от распределения метрики, дизайна теста и выбранного критерия.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram