Вы рандомизируете по `device_id`, но метрика — доля пользователей, совершивших покупку за неделю, считается на уровне аккаунта `user_id` (часть пользователей имеет два устройства). Что корректнее?

Question

Карьерник · Accepted Answer

Правильный ответ: Рандомизировать на уровне `user_id` или учётной записи, чтобы один человек не оказался в обоих вариантах через разные устройства.. Если у одного `user_id` несколько устройств, рандомизация по устройству ведёт к смешению вариантов внутри пользователя. Пользователь с двумя устройствами может одновременно попасть и в тестовую, и в контрольную группу, что размывает наблюдаемый эффект. Это особенно плохо для метрик, которые считаются на уровне аккаунта за период наблюдения. В таких задачах единицу рандомизации выбирают на уровне `user_id` или другой устойчивой учётной записи. Так каждый пользователь получает один и тот же вариант на всех своих устройствах.

Разбор

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»