Вы сравниваете ARPU, но видите редкие очень крупные покупки и сильные выбросы; в каждом варианте около 10 тысяч пользователей. Что разумнее выбрать в первую очередь?

AОбычный t-test по ARPU, потому что он всегда устойчив к выбросам
Bdelta method (дельта-метод для ratio-метрик) без диагностики, потому что он всегда лучше bootstrap
Cbootstrap по пользователям с оценкой confidence interval для разницы
Dz-test по доле платящих, полностью игнорируя размер покупок
Правильный ответ. При тяжелых хвостах и выбросах в ARPU bootstrap часто предпочтительнее параметрических приближений.

Разбор

Выбросы делают распределение среднего сильно несимметричным, и нормальная аппроксимация может работать плохо. bootstrap позволяет эмпирически оценить неопределенность и построить confidence interval для разницы вариантов. Дополнительно полезно смотреть на компоненты: долю платящих и средний чек среди платящих, чтобы понять источник эффекта.

Проверь себя · 1/3разбор после ответа
Почему анализ ratio metric вроде CTR часто нельзя делать как «обычный средний показатель» без оговорок?
Тренировать A/B в Telegram

Ещё вопросы по теме «Ratio-метрики и бутстреп»