В тесте поиска рандомизация по user_id. Метрика — CTR по каждому запросу, у активных пользователей запросов намного больше. Как выбрать корректную unit of analysis, чтобы один супер-активный пользователь не доминировал в результате?

AСчитать каждый запрос независимым и усреднить CTR по всем запросам в целом
BАгрегировать CTR на уровне user_id и сравнивать пользователей или использовать методы, учитывающие кластеризацию по user_id
CУдалить из анализа пользователей, у которых запросов больше среднего
DСделать рандомизацию по запросу вместо user_id, тогда проблема исчезнет
Правильный ответ. Когда unit of randomization (единица рандомизации) — user_id, обычно безопаснее анализировать на уровне пользователя или учитывать зависимость запросов внутри пользователя.

Разбор

Если усреднять по запросам, пользователи с большим числом запросов получают непропорционально большой вес. Это может менять интерпретацию эффекта и вести к неверным стандартным ошибкам, потому что запросы одного user_id зависимы. Частый подход — считать пользовательский CTR (например, клики делить на показы по пользователю) и сравнивать распределения по user_id. Альтернатива — анализ на уровне запросов с корректным учетом кластеризации по пользователям.

Проверь себя · 1/3разбор после ответа
Есть два фактора: новый дизайн карточки и новая логика рекомендаций. Команда хочет запустить два эксперимента одновременно на одной аудитории. В каком случае разумно выбрать факторный дизайн 2x2 вместо взаимного исключения аудиторий?
Тренировать A/B в Telegram

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»