Question 1

В тесте поиска рандомизация по `user_id`. Метрика — CTR по каждому запросу, у активных пользователей запросов намного больше. Как выбрать корректную `unit of analysis`, чтобы один супер-активный пользователь не доминировал в результате?

Accepted Answer

Когда `unit of randomization` (единица рандомизации) — `user_id`, обычно безопаснее анализировать на уровне пользователя или учитывать зависимость запросов внутри пользователя. Если усреднять по запросам, пользователи с большим числом запросов получают непропорционально большой вес. Это может менять интерпретацию эффекта и вести к неверным стандартным ошибкам, потому что запросы одного `user_id` зависимы. Частый подход — считать пользовательский CTR (например, клики делить на показы по пользователю) и сравнивать распределения по `user_id`. Альтернатива — анализ на уровне запросов с корректным учетом кластеризации по пользователям.

Question 2

Эксперимент рандомизируется по `store_id` (каждый магазин — `cluster`), потому что сотрудники влияют на опыт всех клиентов в магазине. Метрика — средний чек клиентов. Какой `unit of analysis` чаще всего корректнее для вывода эффекта?

Accepted Answer

При рандомизации по `cluster` анализ должен учитывать кластерную структуру, иначе стандартные ошибки будут занижены. Если рандомизируются магазины, то именно магазины являются независимыми единицами назначения. Считать каждый чек независимым значит игнорировать общие факторы внутри магазина, что обычно занижает дисперсию и делает выводы слишком оптимистичными. Типовой подход — считать метрику на уровне `store_id` или применять методы, учитывающие кластеризацию. Это согласует `unit of analysis` с `unit of randomization` (единица рандомизации).

Question 3

Часть пользователей не авторизована, и вы используете `device_id` для `bucketing` (разбивка пользователей на группы), а после логина появляется `user_id`. Что лучше сделать, чтобы один человек не увидел оба варианта при переходе в авторизованное состояние?

Accepted Answer

В идентификационных цепочках важно обеспечить стабильность назначения при смене идентификатора, иначе появляется contamination. Если до логина пользователь в одном варианте, а после логина автоматически попадает в другой, то опыт становится смешанным. Это особенно критично для метрик с окном в несколько дней и для сценариев, где пользователь может логиниться часто. Практика — хранить закрепленное назначение и переносить его при объединении `device_id` с `user_id`. Так `bucketing` (разбивка пользователей на группы) остается стабильным для одного человека.

Question 4

Эксперимент рандомизируется по `user_id`, а вы считаете метрику на уровне `session_id` (например, длительность сессии) и сравниваете сессии как независимые наблюдения. Что здесь главное методологическое последствие?

Accepted Answer

Если `unit of analysis` мельче `unit of randomization` (единица рандомизации), наблюдения внутри одного объекта коррелируют и стандартные ошибки могут быть занижены. При рандомизации по `user_id` независимыми являются пользователи, а не их сессии. У одного пользователя поведение по сессиям часто связано, поэтому считать каждую `session_id` независимой ошибочно. Это обычно не обязательно смещает средний эффект, но может дать слишком оптимистичные p-value и доверительные интервалы. Типовые решения — агрегировать метрику на `user_id` или использовать кластерные ошибки на уровне пользователя.

Question 5

В тесте нового реферального механизма пользователь из `treat` отправляет приглашения друзьям, которые попадают в `control` и тоже меняют поведение. Какое допущение нарушается и почему это важно?

Accepted Answer

`SUTVA (Stable Unit Treatment Value Assumption)` требует отсутствия `interference`, то есть результат одного юнита не должен зависеть от назначения других. Реферальные механики создают spillover: действия пользователей из `treat` меняют опыт тех, кто формально в `control`. В таком случае сравнение групп перестает измерять чистый эффект изменения, потому что контроль уже частично подвергся воздействию. Это может приводить к смещению оценки и сложной интерпретации причин. Часто помогают сетевые или кластерные дизайны, где минимизируют контакты между вариантами.

Дизайн эксперимента и рандомизация: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты