У каждого пользователя много событий, и события внутри пользователя коррелированы. Вы хотите оценить неопределённость метрики на уровне пользователя через `bootstrap`. Что корректнее пересэмплировать?

Question

Карьерник · Accepted Answer

Правильный ответ: Пользователей целиком в кластерном `bootstrap`, сохраняя все их события внутри каждой реплики выборки и зависимость событий. При зависимости внутри пользователя лучше делать кластерный `bootstrap` по пользователям. Если пересэмплировать отдельные события, вы будете считать их независимыми и обычно занизите дисперсию. Кластерный `bootstrap` сохраняет структуру данных внутри пользователя и корректнее отражает неопределённость на нужной единице наблюдения. Типичная ошибка — смешать уровни агрегации и получить слишком узкие интервалы.

Разбор

Ещё вопросы по теме «Бутстреп и перестановочные тесты»