В тесте поиска рандомизация идёт по `user_id`. Метрика — CTR по каждому запросу, у активных пользователей запросов намного больше. Как выбрать корректную единицу анализа, чтобы один сверх-активный пользователь не доминировал в результате?

Question

Карьерник · Accepted Answer

Правильный ответ: Агрегировать CTR на уровне `user_id` или применять методы, учитывающие кластеризацию запросов внутри одного пользователя. Когда единица рандомизации — `user_id`, обычно безопаснее анализировать на уровне пользователя или явно учитывать зависимость запросов внутри одного пользователя. Если усреднять по запросам, пользователи с большим числом запросов получают непропорционально большой вес. Это меняет интерпретацию эффекта и ведёт к занижению стандартных ошибок, потому что запросы одного `user_id` зависимы. Частый подход — считать пользовательский CTR (клики делить на показы по каждому пользователю) и сравнивать распределения по `user_id`. Альтернатива — анализ на уровне запросов с корректным учётом кластеризации по пользователям.

Разбор

Ещё вопросы по теме «Дизайн эксперимента и рандомизация»