Из-за взаимного влияния пользователей вы решили рандомизировать по кластеру (например, по магазину), а не по `user_id`. Что обычно происходит с точностью оценки эффекта при том же количестве пользователей?

Question

Карьерник · Accepted Answer

Правильный ответ: Точность обычно падает, потому что эффективное число независимых наблюдений ближе к числу кластеров, а внутри кластера есть зависимость. Кластерная рандомизация уменьшает эффективный размер выборки, потому что наблюдения внутри одного кластера коррелируют между собой. При рандомизации по кластеру независимых единиц становится меньше, даже если пользователей много. Поведение внутри одного магазина или зоны обычно похоже, поэтому добавление новых пользователей внутри того же кластера даёт меньше новой информации. Это увеличивает дисперсию оценки и требует либо больше кластеров, либо более долгого теста. Кластерная рандомизация часто неизбежна при взаимном влиянии пользователей, но её нужно учитывать в ожиданиях по мощности.

Разбор

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»