Из-за `interference` вы решили рандомизировать по `cluster` (например, по магазину), а не по `user_id`. Что обычно происходит с точностью оценки эффекта при том же количестве пользователей?

Question

Карьерник · Accepted Answer

Правильный ответ: Точность обычно падает, потому что эффективное число независимых наблюдений ближе к числу кластеров, а внутри `cluster` есть зависимость. Кластерная рандомизация уменьшает эффективный размер выборки, потому что наблюдения внутри `cluster` коррелируют. При рандомизации по `cluster` независимых единиц становится меньше, даже если пользователей много. Поведение внутри одного магазина или зоны обычно похоже, поэтому добавление новых пользователей внутри того же кластера дает меньше новой информации. Это увеличивает дисперсию оценки и требует либо больше кластеров, либо более долгого теста. Кластерная рандомизация часто неизбежна при `interference`, но ее нужно учитывать в ожиданиях по мощности.

Разбор

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»