В тесте поиска рандомизация по `user_id`. Метрика — CTR по каждому запросу, у активных пользователей запросов намного больше. Как выбрать корректную `unit of analysis`, чтобы один супер-активный пользователь не доминировал в результате?

Question

Карьерник · Accepted Answer

Правильный ответ: Считать каждый запрос независимым и усреднить CTR по всем запросам в целом. Когда `unit of randomization` (единица рандомизации) — `user_id`, обычно безопаснее анализировать на уровне пользователя или учитывать зависимость запросов внутри пользователя. Если усреднять по запросам, пользователи с большим числом запросов получают непропорционально большой вес. Это может менять интерпретацию эффекта и вести к неверным стандартным ошибкам, потому что запросы одного `user_id` зависимы. Частый подход — считать пользовательский CTR (например, клики делить на показы по пользователю) и сравнивать распределения по `user_id`. Альтернатива — анализ на уровне запросов с корректным учетом кластеризации по пользователям.

Разбор

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»