Question 1

Вы тестируете новый алгоритм рекомендаций для части пользователей. В варианте `treat` товар распродается быстрее, из-за чего пользователи из `control` чаще видят сообщение «Нет в наличии». Как лучше всего описать эту проблему?

Accepted Answer

Общий ресурс (инвентарь, очередь, кэш) может создавать `spillover`, из-за чего исход в `control` зависит от назначения `treat`. Когда есть общий инвентарь, действия пользователей из `treat` меняют среду для `control`, например через ситуации, когда товар заканчивается (out-of-stock). Тогда разница между группами отражает не только изменение интерфейса или алгоритма, но и косвенные эффекты через ресурс. Это нарушает предпосылку независимости исходов и может как завышать, так и занижать оценку эффекта. Возможные решения — менять `unit of randomization` (единица рандомизации) (например, по категории или складу) или использовать дизайн, который минимизирует конкуренцию между вариантами.

Question 2

Вы хотите сегментировать результаты по VIP, где VIP определяется как пользователи с покупками за последние 30 дней. Но тест влияет на покупки, значит статус VIP может измениться из-за самого теста. Как правильно поступить, если цель — честная сегментация эффекта?

Accepted Answer

Сегменты должны быть определены по данным до назначения варианта, иначе возникнет смещение из-за разбиения после воздействия (post-treatment). Если VIP-статус меняется под влиянием теста, сегментация превращается в сравнение групп, определенных частично результатом самого эксперимента. Это создает смещение и делает выводы о VIP некорректными. Практичный подход — определить сегмент по данным до назначения и держать его фиксированным на весь период эксперимента. Тогда сегментация отвечает на вопрос, как эффект отличается для заранее известных VIP и не-VIP.

Question 3

Маркетплейс: тест меняет ранжирование для покупателей в `treat`, что увеличивает показы и продажи некоторых продавцов. Эти продавцы затем меняют цену или наличие, и это влияет на покупателей из `control`. Какой вывод наиболее корректен?

Accepted Answer

На двусторонних рынках часто нарушается `SUTVA (Stable Unit Treatment Value Assumption)`, потому что лечение одной стороны меняет среду для другой. Даже при корректном `bucketing` (разбивка пользователей на группы) по `user_id` изменения у покупателей могут менять стимулы и поведение продавцов. Эти изменения затем возвращаются в виде другой среды и для пользователей из `control`, создавая spillovers. В такой ситуации простое сравнение групп может не отражать изолированный эффект и требует осторожной интерпретации. Возможны альтернативы: рандомизация по рынку, категории или времени, а также дизайны, которые явно учитывают взаимодействие сторон. Главное — заранее признать риск `interference` и выбирать дизайн под структуру системы.

Question 4

Есть два фактора: новый дизайн карточки и новая логика рекомендаций. Команда хочет запустить два эксперимента одновременно на одной аудитории. В каком случае разумно выбрать факторный дизайн `2x2` вместо взаимного исключения аудиторий?

Accepted Answer

Факторный дизайн полезен, если вы сознательно допускаете пересечение и хотите оценить не только главные эффекты, но и взаимодействие. В `2x2` вы получаете четыре группы и можете оценить как эффект каждого фактора, так и их взаимодействие. Это удобно, если изменения потенциально влияют друг на друга и вы хотите это измерить. Однако каждая ячейка получает меньшую долю трафика, поэтому требуется больше времени или аудитории для достаточной точности. Если взаимодействие не важно, часто проще и безопаснее использовать взаимное исключение аудиторий.

Question 5

Два независимых эксперимента одновременно меняют одну и ту же страницу checkout, оба рандомизируются по `user_id`. Аудитории пересекаются. Какое решение лучше всего, чтобы интерпретация результатов была надежной?

Accepted Answer

Пересекающиеся эксперименты создают взаимодействия и коллизии аудиторий, поэтому нужны правила разруливания пересечений. Если аудитория пересекается, один пользователь может одновременно находиться под влиянием двух изменений, и эффекты могут не складываться линейно. Тогда оценка каждого эксперимента по отдельности становится трудно интерпретируемой и может быть смещенной. Практичные решения — взаимно исключающие слои `bucketing` (разбивка пользователей на группы) или факторный дизайн `2x2`, если вы хотите измерять взаимодействие. Важно также логировать участие пользователя в каждом экспериментальном слое.

Дизайн эксперимента и рандомизация: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты