Question 1

Вы посчитали скорректированную метрику через `CUPED` (Controlled-experiment Using Pre-Experiment Data). Как корректно строить доверительный интервал и проверять эффект?

Accepted Answer

После `CUPED` нужно оценивать дисперсию и стандартную ошибку у скорректированной метрики и строить доверительный интервал и тест по ней. `CUPED` снижает дисперсию исхода за счёт ковариаты до эксперимента, поэтому старые оценки неопределённости больше не подходят. Правильный путь: рассчитать скорректированную метрику, оценить её дисперсию и стандартную ошибку, а затем построить доверительный интервал и тест для разницы между группами A и B. Это сохраняет корректность статистических выводов и отражает реальный выигрыш от снижения дисперсии. Если использовать старые интервалы или вручную пересчитывать `p-value` через `theta`, легко получить неверные выводы.

Question 2

Вы хотите применить `CUPED` с ковариатой `sessions_per_user` за период до эксперимента, но эти данные есть только у части пользователей, и доля таких пользователей различается между группами A и B. Какой главный риск?

Accepted Answer

Если данных за период до эксперимента нет у всех и доли пропусков различаются между A и B, фильтрация по наличию ковариаты может нарушить сопоставимость и дать смещение. Сравнение групп A и B корректно опирается на исходную случайную раскладку пользователей. Если вы выбрасываете часть пользователей из-за отсутствия данных за период до эксперимента, вы меняете популяцию анализа. Когда доли пропусков различаются между A и B или связаны с поведением, появляется риск смещения оценки. Лучше заранее обеспечить одинаковый расчёт ковариаты или аккуратно продумать обработку пропусков, не нарушая сопоставимость групп.

Question 3

Вы тестируете новый экран, целевая метрика — конверсия. Какую ковариату нельзя использовать в `CUPED`, чтобы не получить утечку и смещение оценки?

Accepted Answer

В `CUPED` ковариата должна быть измерена до эксперимента и не зависеть от варианта, иначе оценка эффекта будет смещённой. Классическое требование: ковариата не должна зависеть от воздействия и должна быть измерена до выдачи варианта. Если корректировать по тому, что само изменилось из-за эксперимента, вы частично вычитаете эффект и получаете смещённую оценку. Поэтому в `CUPED` берут признаки из предэкспериментального периода или статические характеристики, известные заранее.

Question 4

Эксперимент проводится на офлайн-точках, а выручка сильно зависит от магазина и дня недели. Как корректнее всего применить блочную рандомизацию при назначении групп `A` и `B`?

Accepted Answer

Когда выручка сильно зависит от магазина и дня недели, блочная рандомизация по этим факторам снижает дисперсию и повышает мощность. В офлайн-экспериментах разница между точками может быть очень большой и доминировать над эффектом теста. Если рандомизировать внутри блоков по магазину и дню недели, сравнение `A` и `B` идёт на похожих единицах: это снижает дисперсию и повышает мощность. Простая рандомизация без блоков не учитывает заранее известный источник шума, последовательный тест ловит сезонность и тренд, а сортировка по выручке — это уже самоселекция, а не рандомизация.

Question 5

Аналитик попробовал 8 разных ковариат для `CUPED` и выбрал ту, при которой получился самый маленький `p-value` для эффекта. Что в этом подходе наиболее проблемно?

Accepted Answer

Выбор ковариаты постфактум по минимальному `p-value` — это перебор аналитических решений и рост риска ложноположительных выводов. Когда вы пробуете много вариантов и выбираете самый удачный по `p-value`, вы по сути делаете множественные проверки. Даже при отсутствии реального эффекта можно случайно найти настройку, которая выглядит значимой. Чтобы избежать этого, ковариату и метод снижения дисперсии лучше зафиксировать до эксперимента или использовать отдельные данные для выбора. Иначе результаты становятся менее надёжными и хуже воспроизводятся.

Снижение дисперсии и CUPED: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты