Из-за interference вы решили рандомизировать по cluster (например, по магазину), а не по user_id. Что обычно происходит с точностью оценки эффекта при том же количестве пользователей?

AТочность обычно падает, потому что эффективное число независимых наблюдений ближе к числу кластеров, а внутри cluster есть зависимость
BТочность растет, потому что внутри кластера меньше шума
CТочность не меняется, потому что число пользователей то же самое
DТочность зависит только от того, какой hash() выбран для bucketing (разбивка пользователей на группы)
Правильный ответ. Кластерная рандомизация уменьшает эффективный размер выборки, потому что наблюдения внутри cluster коррелируют.

Разбор

При рандомизации по cluster независимых единиц становится меньше, даже если пользователей много. Поведение внутри одного магазина или зоны обычно похоже, поэтому добавление новых пользователей внутри того же кластера дает меньше новой информации. Это увеличивает дисперсию оценки и требует либо больше кластеров, либо более долгого теста. Кластерная рандомизация часто неизбежна при interference, но ее нужно учитывать в ожиданиях по мощности.

Проверь себя · 1/3разбор после ответа
Есть два фактора: новый дизайн карточки и новая логика рекомендаций. Команда хочет запустить два эксперимента одновременно на одной аудитории. В каком случае разумно выбрать факторный дизайн 2x2 вместо взаимного исключения аудиторий?
Тренировать A/B в Telegram

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»