Метрика `revenue per user` очень шумная: есть редкие большие чеки, из-за чего `variance` высокая и `sample size` растет. Что чаще всего уменьшит требуемый `sample size` при неизменных `alpha` и `power`, не меняя смысл метрики полностью?

Question

Карьерник · Accepted Answer

Правильный ответ: Убрать из анализа всех пользователей с покупками, тогда `variance` станет нулевой. Снижение `variance` метрики через устойчивую агрегацию часто уменьшает необходимый `sample size` при заданных `alpha` и `power`. Метрики с тяжелыми хвостами дают большую `variance`, из-за чего требуется больше данных для стабильной оценки среднего. Устойчивые техники вроде `winsorization` (усечение выбросов до процентиля) или `trimming` уменьшают влияние редких экстремальных значений, сохраняя интерпретацию близкой к исходной метрике. Это снижает `variance` и, как следствие, уменьшает требуемый `sample size` при тех же `alpha` и `power`.

Разбор

Ещё вопросы по теме «Размер выборки и мощность теста»