Вы рандомизируете по device_id, но метрика — доля пользователей, совершивших покупку за неделю, на уровне аккаунта user_id (у части пользователей два устройства). Что корректнее?
AРандомизировать по
user_id или учетной записи, чтобы один пользователь не получал оба варианта на разных устройствахBОставить
device_id, а потом просто суммировать покупки по user_idCРандомизировать по
session_id, потому что сессия ближе к покупкеDРандомизировать по типу устройства, чтобы распределение было равным
Правильный ответ. Если один
user_id может иметь несколько device_id, рандомизация по устройству ведет к смешению вариантов для одного пользователя.Разбор
Пользователь с двумя устройствами может оказаться одновременно в treat и control, что создает contamination и размывает эффект. Это особенно плохо для метрик, которые считаются на уровне аккаунта за период. В таких задачах корректнее выбирать unit of randomization (единица рандомизации) на уровне user_id или устойчивой учетной записи.
Проверь себя · 1/3разбор после ответа
Вы тестируете новый экран оплаты. Пользователь может заходить в приложение много раз. Метрика — конверсия в покупку за 7 дней на уровне
user_id. Какую unit of randomization (единица рандомизации) выбрать, чтобы минимизировать смешение вариантов?Ещё вопросы по теме «Дизайн эксперимента и рандомизация»
- Вы тестируете новый экран оплаты. Пользователь может заходить в приложение много раз. Метрика — конверсия в покупку за 7 дней на уровне `user_id`. Какую `unit of randomization` (единица рандомизации) выбрать, чтобы минимизировать смешение вариантов?
- Эксперимент рандомизируется по `user_id`, а вы считаете метрику на уровне `session_id` (например, длительность сессии) и сравниваете сессии как независимые наблюдения. Что здесь главное методологическое последствие?
- В тесте нового реферального механизма пользователь из `treat` отправляет приглашения друзьям, которые попадают в `control` и тоже меняют поведение. Какое допущение нарушается и почему это важно?
- Эксперимент меняет алгоритм распределения заказов между курьерами. Курьеры обслуживают сразу нескольких пользователей, и решение для одного заказа влияет на время доставки других. Какой подход к рандомизации чаще всего лучше уменьшит `interference`?
- Вы делаете `bucketing` (разбивка пользователей на группы) как `hash(user_id + day) % 2`, где `day` — текущая дата. Что самое вероятное следствие для эксперимента?
- Все вопросы по «Дизайн эксперимента и рандомизация» →