Метрика `ARPU = sum(revenue)/count(users)`, у пользователя может быть несколько покупок. Вы хотите оценить разницу `ARPU` между A и B через `bootstrap`. Какой ресэмплинг наиболее корректен?

Question

Карьерник · Accepted Answer

Правильный ответ: Пересэмплировать пользователей целиком вместе с их выручкой и считать `ARPU` в каждой реплике. В `bootstrap` важно пересэмплировать на уровне той единицы наблюдения, которая определяет метрику. Если метрика определена на уровне пользователя, пересэмплировать нужно пользователей, а не отдельные транзакции, иначе вы нарушите структуру зависимости и занизите дисперсию оценок. Пересэмплирование числителя и знаменателя по отдельности ломает их связь и даёт некорректные доверительные интервалы. Перемешивание выручки между пользователями — это вообще не `bootstrap`, а пермутационная процедура для другой задачи. Типичная ошибка — считать, что любые повторные выборки подойдут, хотя уровень ресэмплинга принципиален для ratio-метрик.

Метрика `ARPU = sum(revenue)/count(users)`, у пользователя может быть несколько покупок. Вы хотите оценить разницу `ARPU` между A и B через `bootstrap`. Какой ресэмплинг наиболее корректен?

Разбор

Ещё вопросы по теме «Бутстреп и перестановочные тесты»

Метрика ARPU = sum(revenue)/count(users), у пользователя может быть несколько покупок. Вы хотите оценить разницу ARPU между A и B через bootstrap. Какой ресэмплинг наиболее корректен?

Разбор

Ещё вопросы по теме «Бутстреп и перестановочные тесты»

Метрика `ARPU = sum(revenue)/count(users)`, у пользователя может быть несколько покупок. Вы хотите оценить разницу `ARPU` между A и B через `bootstrap`. Какой ресэмплинг наиболее корректен?