Эксперимент рандомизируется по `store_id` (каждый магазин — кластер), потому что сотрудники влияют на опыт всех клиентов в магазине. Метрика — средний чек клиентов. Какая единица анализа чаще всего корректнее для вывода эффекта?

Question

Карьерник · Accepted Answer

Правильный ответ: Считать метрику на уровне `store_id` и сравнивать магазины, либо использовать стандартные ошибки с поправкой на кластеры по `store_id`.. При рандомизации по `cluster` анализ должен учитывать кластерную структуру, иначе стандартные ошибки будут занижены. Если рандомизируются магазины, то именно магазины являются независимыми единицами назначения. Считать каждый чек независимым значит игнорировать общие факторы внутри магазина, что обычно занижает дисперсию и делает выводы слишком оптимистичными. Типовой подход — считать метрику на уровне `store_id` или применять методы, учитывающие кластеризацию. Это согласует единицу анализа с единицей рандомизации.

Разбор

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»