Аналитик попробовал 8 разных covariate (ковариата — вспомогательная переменная) для CUPED (Controlled-experiment Using Pre-Experiment Data) и выбрал ту, при которой получился самый маленький p-value для effect. Что в этом подходе наиболее проблемно?
AПроблема только в скорости вычислений, на выводы это не влияет.
BЭто всегда безопасно, потому что
CUPED (Controlled-experiment Using Pre-Experiment Data) не влияет на p-value.CЭто увеличивает только риск
Type II error и никак не влияет на Type I error.DЭто фактически множественный перебор аналитических решений и может увеличить риск ложноположительных выводов (
Type I error), если covariate (ковариата — вспомогательная переменная) не фиксировать заранее.Правильный ответ. Выбор
covariate (ковариата — вспомогательная переменная) постфактум по минимальному p-value — это множественный перебор (researcher degrees of freedom) и рост риска ложноположительных выводов.Разбор
Когда вы пробуете много вариантов и выбираете самый удачный по p-value, вы по сути делаете множественные проверки. Даже при отсутствии реального effect можно случайно найти настройку, которая выглядит значимой. Чтобы избежать этого, covariate (ковариата — вспомогательная переменная) и метод variance reduction лучше зафиксировать до эксперимента или использовать отдельные данные для выбора. Иначе результаты становятся менее доверенными и хуже воспроизводятся.
Проверь себя · 1/3разбор после ответа
В методе
CUPED (Controlled-experiment Using Pre-Experiment Data) используется коэффициент theta. Как его обычно получают в практическом применении?Ещё вопросы по теме «Снижение дисперсии и CUPED»
- Зачем в `A/B` тестах применяют методы `variance reduction` вроде `CUPED` (Controlled-experiment Using Pre-Experiment Data)?
- Какие данные нужны, чтобы применить `CUPED` (Controlled-experiment Using Pre-Experiment Data) в эксперименте по метрике `revenue_per_user`?
- Вы тестируете новый экран, целевая метрика `conversion`. Какую `covariate` (ковариата — вспомогательная переменная) нельзя использовать в `CUPED` (Controlled-experiment Using Pre-Experiment Data), чтобы не получить `leakage` (утечка данных между группами) и `bias`?
- Что означает `blocking` в дизайне `A/B` теста?
- В эксперименте метрика `conversion` сильно различается у `new_users` и `returning_users`, а трафик ограничен. Какой шаг лучше всего снижает шум и риск перекоса сегментов?
- Все вопросы по «Снижение дисперсии и CUPED» →