Из-за взаимного влияния пользователей вы решили рандомизировать по кластеру (например, по магазину), а не по user_id. Что обычно происходит с точностью оценки эффекта при том же количестве пользователей?

AТочность растёт, потому что внутри одного кластера меньше шума и наблюдения становятся более однородными
BТочность обычно падает, потому что эффективное число независимых наблюдений ближе к числу кластеров, а внутри кластера есть зависимость
CТочность не меняется, потому что общее число пользователей в эксперименте остаётся тем же самым
DТочность зависит только от выбора хеш-функции для разбиения пользователей на группы и не связана с уровнем рандомизации
Правильный ответ. Кластерная рандомизация уменьшает эффективный размер выборки, потому что наблюдения внутри одного кластера коррелируют между собой.

Разбор

При рандомизации по кластеру независимых единиц становится меньше, даже если пользователей много. Поведение внутри одного магазина или зоны обычно похоже, поэтому добавление новых пользователей внутри того же кластера даёт меньше новой информации. Это увеличивает дисперсию оценки и требует либо больше кластеров, либо более долгого теста. Кластерная рандомизация часто неизбежна при взаимном влиянии пользователей, но её нужно учитывать в ожиданиях по мощности.

Проверь себя · 1/3разбор после ответа
Вы делаете разбивку пользователей на группы как hash(user_id + day) % 2, где day — текущая дата. Что самое вероятное следствие для эксперимента?
Тренировать A/B в Telegram

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»