Question 1

Почему назначение варианта строкой `variant = random.choice([0, 1])` при каждом запросе пользователя — плохая идея для A/B-теста?

Accepted Answer

Назначение варианта на каждом запросе нарушает фиксацию пользователя в одной группе, и эффект варианта смешивается с эффектом мерцания интерфейса. В A/B-тесте принципиально, чтобы один пользователь стабильно видел один вариант: тогда разница в метрике отражает именно изменение продукта. Если назначение делается на каждый запрос, тот же человек случайно скачет между A и B, и эффект изменения смешивается с тем, что интерфейс постоянно меняется. Запросы внутри сессии нельзя считать независимыми наблюдениями: они сильно скоррелированы через одного пользователя, поэтому формальная «прибавка мощности» обманчива. `random.choice` сама по себе вполне справедлива, проблема не в её распределении.

Question 2

Вы тестируете новый экран оплаты. Пользователь может заходить в приложение много раз. Метрика — конверсия в покупку за 7 дней на уровне `user_id`. Какую единицу рандомизации выбрать, чтобы минимизировать смешение вариантов?

Accepted Answer

Юнит рандомизации должен совпадать с юнитом метрики: для конверсии за 7 дней на пользователя — это `user_id`. Если метрика считается на уровне пользователя за 7 дней, рандомизация тоже должна быть по `user_id`, иначе один человек увидит оба варианта и эффект «размажется». При рандомизации по сессии или показу страницы один и тот же пользователь попадёт сразу в обе группы, и сравнение перестанет отвечать на вопрос «кто бы конвертировался, если бы ему всегда показывали B». `device_id` тоже плох, потому что один пользователь часто заходит с нескольких устройств, и опять смешает группы.

Question 3

Вы рандомизируете по `device_id`, но метрика — доля пользователей, совершивших покупку за неделю, считается на уровне аккаунта `user_id` (часть пользователей имеет два устройства). Что корректнее?

Accepted Answer

Если у одного `user_id` несколько устройств, рандомизация по устройству ведёт к смешению вариантов внутри пользователя. Пользователь с двумя устройствами может одновременно попасть и в тестовую, и в контрольную группу, что размывает наблюдаемый эффект. Это особенно плохо для метрик, которые считаются на уровне аккаунта за период наблюдения. В таких задачах единицу рандомизации выбирают на уровне `user_id` или другой устойчивой учётной записи. Так каждый пользователь получает один и тот же вариант на всех своих устройствах.

Question 4

Вы делаете разбивку пользователей на группы как `hash(user_id + day) % 2`, где `day` — текущая дата. Что самое вероятное следствие для эксперимента?

Accepted Answer

Разбивка на группы должна быть детерминированной и стабильной во времени для одного `user_id`, иначе пользователь увидит разные варианты. Добавление `day` в ключ делает назначение зависимым от даты, поэтому один и тот же пользователь будет получать разные варианты в разные дни. В результате внутри одного `user_id` происходит смена воздействия, и эффект размывается. Кроме того, такая схема усложняет анализ по когортам и повышает риск непредсказуемых перекосов в данных.

Question 5

В эксперименте на ранжировании пользователи разбиты на группы по `user_id`, но общий кэш поиска не учитывает вариант и иногда отдаёт пользователю выдачу другого варианта. Что это за риск?

Accepted Answer

Если инфраструктура смешивает выдачи разных вариантов, происходит загрязнение групп и эксперимент перестаёт измерять чистый эффект. Кэш, который не учитывает вариант, делает фактический показ несовпадающим с назначением по группам. Тогда часть пользователей контрольной группы увидит поведение тестового варианта или наоборот, и различия между группами размоются. Это нарушает предпосылки `SUTVA` и может скрыть реальный эффект или создать ложный. Обычно решают добавлением варианта в ключ кэша и проверкой согласованности назначения и фактического показа.

Вопросы по теме «Дизайн эксперимента и рандомизация»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты