Метрика ARPU = sum(revenue)/count(users), у пользователя может быть несколько покупок. Вы хотите оценить разницу ARPU между A и B через bootstrap. Какой ресэмплинг наиболее корректен?

AПересэмплировать транзакции как независимые наблюдения, игнорируя пользователей
BПересэмплировать sum(revenue) отдельно от count(users) и делить их между собой
CПересэмплировать пользователей целиком (с их выручкой), а затем считать ARPU в каждой реплике
DПеремешать выручку между пользователями и назвать это bootstrap
Правильный ответ. В bootstrap важно пересэмплировать на уровне единицы наблюдения, которая определяет метрику.

Разбор

Если метрика определена на уровне пользователя, пересэмплировать нужно пользователей, а не события, иначе вы нарушите структуру зависимости и занизите дисперсию. Пересэмплирование числителя и знаменателя отдельно ломает их связь и даёт некорректные интервалы. Типичная ошибка — считать, что любые повторные выборки 'подойдут', хотя уровень ресэмплинг принципиален.

Проверь себя · 1/3разбор после ответа
Метрика имеет тяжёлые хвосты и сложную формулу (например, revenue per user). Какой подход часто удобен, чтобы оценить неопределённость оценки без сложных выводов формул?
Тренировать статистику в Telegram

Ещё вопросы по теме «Бутстреп и перестановочные тесты»