У каждого пользователя много событий, и события внутри пользователя коррелированы. Вы хотите оценить неопределённость метрики на уровне пользователя через bootstrap. Что корректнее пересэмплировать?

AОтдельные события как независимые наблюдения
BПользователей целиком (кластерный bootstrap), сохраняя все их события внутри реплики
CТолько средние по дням, игнорируя пользователей
DТолько те события, где значение метрики выше медианы
Правильный ответ. При зависимости внутри пользователя лучше делать кластерный bootstrap по пользователям.

Разбор

Если пересэмплировать отдельные события, вы будете считать их независимыми и обычно занизите дисперсию. Кластерный bootstrap сохраняет структуру данных внутри пользователя и корректнее отражает неопределённость на нужной единице наблюдения. Типичная ошибка — смешать уровни агрегации и получить слишком узкие интервалы.

Проверь себя · 1/3разбор после ответа
В классическом bootstrap какой размер обычно имеет каждая пересэмплированная выборка относительно исходной выборки размера n?
Тренировать статистику в Telegram

Ещё вопросы по теме «Бутстреп и перестановочные тесты»