Эксперимент рандомизируется по store_id (каждый магазин — cluster), потому что сотрудники влияют на опыт всех клиентов в магазине. Метрика — средний чек клиентов. Какой unit of analysis чаще всего корректнее для вывода эффекта?

AКаждый чек как независимый, потому что чек отражает решение клиента
BАгрегировать метрику на уровне store_id и сравнивать магазины или использовать кластерные ошибки по store_id
CСчитать только первые 10 чеков в каждом магазине, тогда зависимость исчезнет
DСменить рандомизацию на user_id, чтобы анализировать по пользователям
Правильный ответ. При рандомизации по cluster анализ должен учитывать кластерную структуру, иначе стандартные ошибки будут занижены.

Разбор

Если рандомизируются магазины, то именно магазины являются независимыми единицами назначения. Считать каждый чек независимым значит игнорировать общие факторы внутри магазина, что обычно занижает дисперсию и делает выводы слишком оптимистичными. Типовой подход — считать метрику на уровне store_id или применять методы, учитывающие кластеризацию. Это согласует unit of analysis с unit of randomization (единица рандомизации).

Проверь себя · 1/3разбор после ответа
Есть два фактора: новый дизайн карточки и новая логика рекомендаций. Команда хочет запустить два эксперимента одновременно на одной аудитории. В каком случае разумно выбрать факторный дизайн 2x2 вместо взаимного исключения аудиторий?
Тренировать A/B в Telegram

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»