Метрика ARPU = sum(revenue)/count(users), у пользователя может быть несколько покупок. Вы хотите оценить разницу ARPU между A и B через bootstrap. Какой ресэмплинг наиболее корректен?
AПересэмплировать транзакции как независимые наблюдения, игнорируя пользователей
BПересэмплировать
sum(revenue) отдельно от count(users) и делить их между собойCПересэмплировать пользователей целиком (с их выручкой), а затем считать
ARPU в каждой репликеDПеремешать выручку между пользователями и назвать это
bootstrapПравильный ответ. В
bootstrap важно пересэмплировать на уровне единицы наблюдения, которая определяет метрику.Разбор
Если метрика определена на уровне пользователя, пересэмплировать нужно пользователей, а не события, иначе вы нарушите структуру зависимости и занизите дисперсию. Пересэмплирование числителя и знаменателя отдельно ломает их связь и даёт некорректные интервалы. Типичная ошибка — считать, что любые повторные выборки 'подойдут', хотя уровень ресэмплинг принципиален.
Проверь себя · 1/3разбор после ответа
Метрика имеет тяжёлые хвосты и сложную формулу (например,
revenue per user). Какой подход часто удобен, чтобы оценить неопределённость оценки без сложных выводов формул?Ещё вопросы по теме «Бутстреп и перестановочные тесты»
- Что делает `bootstrap` на одном шаге, чтобы получить одну реплику статистики?
- Какая ключевая идея лежит в основе `permutation test` при проверке `H0` об отсутствии разницы между группами?
- Вы сделали 2000 повторов `bootstrap` для разницы средних A−B и получили 2000 значений разницы. Что из этого является `эмпирическое распределение` разницы средних?
- Как в `permutation test` обычно оценивают `p-value` для наблюдаемой статистики?
- Метрика имеет тяжёлые хвосты и сложную формулу (например, `revenue per user`). Какой подход часто удобен, чтобы оценить неопределённость оценки без сложных выводов формул?
- Все вопросы по «Бутстреп и перестановочные тесты» →