Вы делаете разбивку пользователей на группы как hash(user_id + day) % 2, где day — текущая дата. Что самое вероятное следствие для эксперимента?
AОдин и тот же
user_id будет перескакивать между вариантами по дням, что приведёт к смешиванию воздействийBГруппы будут идеально 50/50 в каждый день, потому что хеш равномерно делит трафик пополам
CЭто снижает риск
SRM, потому что распределение пересчитывается каждый день и автоматически выравниваетсяDЭто автоматически компенсирует сезонность по дням недели за счёт смены ключа разбивки
Правильный ответ. Разбивка на группы должна быть детерминированной и стабильной во времени для одного
user_id, иначе пользователь увидит разные варианты.Разбор
Добавление day в ключ делает назначение зависимым от даты, поэтому один и тот же пользователь будет получать разные варианты в разные дни. В результате внутри одного user_id происходит смена воздействия, и эффект размывается. Кроме того, такая схема усложняет анализ по когортам и повышает риск непредсказуемых перекосов в данных.
Проверь себя · 1/3разбор после ответа
Есть два фактора: новый дизайн карточки и новая логика рекомендаций. Команда хочет запустить два эксперимента одновременно на одной аудитории. В каком случае разумно выбрать факторный дизайн
2x2 вместо взаимного исключения аудиторий?Ещё вопросы по теме «Дизайн эксперимента и рандомизация»
- Вы тестируете новый экран оплаты. Пользователь может заходить в приложение много раз. Метрика — конверсия в покупку за 7 дней на уровне `user_id`. Какую единицу рандомизации выбрать, чтобы минимизировать смешение вариантов?
- Эксперимент рандомизируется по `user_id`, а вы считаете метрику на уровне `session_id` (например, длительность сессии) и сравниваете сессии как независимые наблюдения. Что здесь главное методологическое последствие?
- В тесте нового реферального механизма пользователь из тестовой группы отправляет приглашения друзьям, которые попадают в контрольную и тоже меняют поведение. Какое допущение нарушается и почему это важно?
- Эксперимент меняет алгоритм распределения заказов между курьерами. Курьеры обслуживают сразу нескольких пользователей, и решение для одного заказа влияет на время доставки других. Какой подход к рандомизации чаще всего лучше уменьшит взаимное влияние групп?
- Ожидаемое разбиение — 50/50. По логам экспозиций видно `N_treat / N_control = 1.30`. Какой вывод и следующий шаг наиболее корректны?
- Все вопросы по «Дизайн эксперимента и рандомизация» →