Вы тестируете новый экран оплаты. Пользователь может заходить в приложение много раз. Метрика — конверсия в покупку за 7 дней на уровне user_id. Какую unit of randomization (единица рандомизации) выбрать, чтобы минимизировать смешение вариантов?
AРандомизировать по
user_id и анализировать на user_idBРандомизировать по
session_id, так будет больше наблюденийCРандомизировать по
device_id, чтобы учитывать устройствоDРандомизировать по каждому просмотру страницы, чтобы ускорить тест
Правильный ответ. Единица рандомизации должна быть стабильной для объекта, по которому вы измеряете эффект, иначе один и тот же объект может попасть в обе группы.
Разбор
Если рандомизировать по session_id, один и тот же user_id может увидеть оба варианта в разные визиты, и эффект размоется. Это создает contamination и ухудшает интерпретацию конверсии за 7 дней. Рандомизация по user_id делает назначение стабильным и согласует unit of randomization (единица рандомизации) с метрикой.
Проверь себя · 1/3разбор после ответа
Есть два фактора: новый дизайн карточки и новая логика рекомендаций. Команда хочет запустить два эксперимента одновременно на одной аудитории. В каком случае разумно выбрать факторный дизайн
2x2 вместо взаимного исключения аудиторий?Ещё вопросы по теме «Дизайн эксперимента и рандомизация»
- Эксперимент рандомизируется по `user_id`, а вы считаете метрику на уровне `session_id` (например, длительность сессии) и сравниваете сессии как независимые наблюдения. Что здесь главное методологическое последствие?
- В тесте нового реферального механизма пользователь из `treat` отправляет приглашения друзьям, которые попадают в `control` и тоже меняют поведение. Какое допущение нарушается и почему это важно?
- Эксперимент меняет алгоритм распределения заказов между курьерами. Курьеры обслуживают сразу нескольких пользователей, и решение для одного заказа влияет на время доставки других. Какой подход к рандомизации чаще всего лучше уменьшит `interference`?
- Вы делаете `bucketing` (разбивка пользователей на группы) как `hash(user_id + day) % 2`, где `day` — текущая дата. Что самое вероятное следствие для эксперимента?
- Ожидаемое разбиение — 50/50. По логам экспозиций видно `N_treat / N_control = 1.30`. Какой вывод и следующий шаг наиболее корректны?
- Все вопросы по «Дизайн эксперимента и рандомизация» →