Вы сравниваете ARPU, но видите редкие очень крупные покупки и сильные выбросы; в каждом варианте около 10 тысяч пользователей. Что разумнее выбрать в первую очередь?
AОбычный
t-test по ARPU, потому что он всегда устойчив к выбросамB
delta method (дельта-метод для ratio-метрик) без диагностики, потому что он всегда лучше bootstrapC
bootstrap по пользователям с оценкой confidence interval для разницыD
z-test по доле платящих, полностью игнорируя размер покупокПравильный ответ. При тяжелых хвостах и выбросах в
ARPU bootstrap часто предпочтительнее параметрических приближений.Разбор
Выбросы делают распределение среднего сильно несимметричным, и нормальная аппроксимация может работать плохо. bootstrap позволяет эмпирически оценить неопределенность и построить confidence interval для разницы вариантов. Дополнительно полезно смотреть на компоненты: долю платящих и средний чек среди платящих, чтобы понять источник эффекта.
Проверь себя · 1/3разбор после ответа
Почему анализ
ratio metric вроде CTR часто нельзя делать как «обычный средний показатель» без оговорок?Ещё вопросы по теме «Ratio-метрики и бутстреп»
- Какая из метрик является `ratio metric`?
- Вы считаете `ARPU` в эксперименте; что является числителем и знаменателем этой метрики?
- Есть таблица по пользователям с колонками conversions (число конверсий) и visits (число визитов). Вы хотите получить групповой `conversion rate` по визитам; какой расчет корректен?
- Почему анализ `ratio metric` вроде `CTR` часто нельзя делать как «обычный средний показатель» без оговорок?
- Есть две кампании: (1) 1 клик и 1 показ, (2) 9 кликов и 99 показов. Чему равен общий `CTR` по двум кампаниям при корректной агрегации?
- Все вопросы по «Ratio-метрики и бутстреп» →