Аналитик попробовал 8 разных covariate (ковариата — вспомогательная переменная) для CUPED (Controlled-experiment Using Pre-Experiment Data) и выбрал ту, при которой получился самый маленький p-value для effect. Что в этом подходе наиболее проблемно?

AПроблема только в скорости вычислений, на выводы это не влияет.
BЭто всегда безопасно, потому что CUPED (Controlled-experiment Using Pre-Experiment Data) не влияет на p-value.
CЭто увеличивает только риск Type II error и никак не влияет на Type I error.
DЭто фактически множественный перебор аналитических решений и может увеличить риск ложноположительных выводов (Type I error), если covariate (ковариата — вспомогательная переменная) не фиксировать заранее.
Правильный ответ. Выбор covariate (ковариата — вспомогательная переменная) постфактум по минимальному p-value — это множественный перебор (researcher degrees of freedom) и рост риска ложноположительных выводов.

Разбор

Когда вы пробуете много вариантов и выбираете самый удачный по p-value, вы по сути делаете множественные проверки. Даже при отсутствии реального effect можно случайно найти настройку, которая выглядит значимой. Чтобы избежать этого, covariate (ковариата — вспомогательная переменная) и метод variance reduction лучше зафиксировать до эксперимента или использовать отдельные данные для выбора. Иначе результаты становятся менее доверенными и хуже воспроизводятся.

Проверь себя · 1/3разбор после ответа
В методе CUPED (Controlled-experiment Using Pre-Experiment Data) используется коэффициент theta. Как его обычно получают в практическом применении?
Тренировать A/B в Telegram

Ещё вопросы по теме «Снижение дисперсии и CUPED»