В тесте поиска рандомизация идёт по user_id. Метрика — CTR по каждому запросу, у активных пользователей запросов намного больше. Как выбрать корректную единицу анализа, чтобы один сверх-активный пользователь не доминировал в результате?

AСчитать каждый запрос независимым наблюдением и усреднять CTR по всем запросам, не учитывая принадлежность к user_id
BУдалить из анализа активных пользователей, у которых число запросов выше среднего, и считать CTR только по оставшимся
CАгрегировать CTR на уровне user_id или применять методы, учитывающие кластеризацию запросов внутри одного пользователя
DПерейти на рандомизацию по запросу вместо user_id, тогда зависимость наблюдений в группах исчезнет автоматически
Правильный ответ. Когда единица рандомизации — user_id, обычно безопаснее анализировать на уровне пользователя или явно учитывать зависимость запросов внутри одного пользователя.

Разбор

Если усреднять по запросам, пользователи с большим числом запросов получают непропорционально большой вес. Это меняет интерпретацию эффекта и ведёт к занижению стандартных ошибок, потому что запросы одного user_id зависимы. Частый подход — считать пользовательский CTR (клики делить на показы по каждому пользователю) и сравнивать распределения по user_id. Альтернатива — анализ на уровне запросов с корректным учётом кластеризации по пользователям.

Проверь себя · 1/3разбор после ответа
Есть два фактора: новый дизайн карточки и новая логика рекомендаций. Команда хочет запустить два эксперимента одновременно на одной аудитории. В каком случае разумно выбрать факторный дизайн 2x2 вместо взаимного исключения аудиторий?
Тренировать A/B в Telegram

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»