У каждого пользователя много событий, и события внутри пользователя коррелированы. Вы хотите оценить неопределённость метрики на уровне пользователя через bootstrap. Что корректнее пересэмплировать?
AОтдельные события как независимые наблюдения
BПользователей целиком (кластерный
bootstrap), сохраняя все их события внутри репликиCТолько средние по дням, игнорируя пользователей
DТолько те события, где значение метрики выше медианы
Правильный ответ. При зависимости внутри пользователя лучше делать кластерный
bootstrap по пользователям.Разбор
Если пересэмплировать отдельные события, вы будете считать их независимыми и обычно занизите дисперсию. Кластерный bootstrap сохраняет структуру данных внутри пользователя и корректнее отражает неопределённость на нужной единице наблюдения. Типичная ошибка — смешать уровни агрегации и получить слишком узкие интервалы.
Проверь себя · 1/3разбор после ответа
В классическом
bootstrap какой размер обычно имеет каждая пересэмплированная выборка относительно исходной выборки размера n?Ещё вопросы по теме «Бутстреп и перестановочные тесты»
- Что делает `bootstrap` на одном шаге, чтобы получить одну реплику статистики?
- Какая ключевая идея лежит в основе `permutation test` при проверке `H0` об отсутствии разницы между группами?
- Вы сделали 2000 повторов `bootstrap` для разницы средних A−B и получили 2000 значений разницы. Что из этого является `эмпирическое распределение` разницы средних?
- Как в `permutation test` обычно оценивают `p-value` для наблюдаемой статистики?
- Метрика имеет тяжёлые хвосты и сложную формулу (например, `revenue per user`). Какой подход часто удобен, чтобы оценить неопределённость оценки без сложных выводов формул?
- Все вопросы по «Бутстреп и перестановочные тесты» →