В A/B тесте вы сравниваете ARPU: большинство пользователей дают 0, но иногда бывают очень крупные покупки; выборка умеренная. Какой подход чаще всего более надёжен для p-value и доверительного интервала?

Question

Карьерник · Accepted Answer

Правильный ответ: Сделать `bootstrap` на уровне пользователей и оценить распределение разницы между группами. Для сильно скошенных метрик типа ARPU `bootstrap` часто даёт более устойчивую оценку неопределённости, чем линейные приближения. При тяжёлых хвостах среднее нестабильно, а асимптотическая нормальность наступает медленно. `bootstrap` учитывает реальную форму распределения и влияние редких крупных чеков, если ресэмплировать пользователей как единицы рандомизации. Дельта-метод и `z-test` для долей опираются на предположения, которые при таких данных могут не выполняться.

Разбор

Ещё вопросы по теме «Ratio-метрики и бутстреп»