Эксперимент проводится на офлайн-точках, а выручка сильно зависит от магазина и дня недели. Как корректнее всего применить блочную рандомизацию при назначении групп `A` и `B`?

Question

Карьерник · Accepted Answer

Правильный ответ: Сгруппировать точки по магазину и дню недели и внутри каждого блока случайно назначить `A` или `B`. Когда выручка сильно зависит от магазина и дня недели, блочная рандомизация по этим факторам снижает дисперсию и повышает мощность. В офлайн-экспериментах разница между точками может быть очень большой и доминировать над эффектом теста. Если рандомизировать внутри блоков по магазину и дню недели, сравнение `A` и `B` идёт на похожих единицах: это снижает дисперсию и повышает мощность. Простая рандомизация без блоков не учитывает заранее известный источник шума, последовательный тест ловит сезонность и тренд, а сортировка по выручке — это уже самоселекция, а не рандомизация.

Разбор

Ещё вопросы по теме «Снижение дисперсии и CUPED»