Метрика «выручка на пользователя» очень шумная: есть редкие большие чеки, из-за чего дисперсия высокая и требуемый размер выборки растёт. Что чаще всего уменьшит размер выборки при неизменных `alpha` и мощности, не меняя смысл метрики полностью?

Question

Карьерник · Accepted Answer

Правильный ответ: Снизить дисперсию метрики устойчивыми техниками `winsorization` или `trimming` при сохранении смысла исходной метрики. Снижение дисперсии метрики через устойчивую агрегацию часто уменьшает необходимый размер выборки при заданных `alpha` и мощности. Метрики с тяжёлыми хвостами дают большую дисперсию, поэтому для стабильной оценки среднего нужно больше данных. Устойчивые техники вроде `winsorization` (усечение на крайних процентилях) или `trimming` уменьшают влияние редких экстремальных значений и сохраняют интерпретацию, близкую к исходной метрике. Это снижает дисперсию и, следовательно, уменьшает требуемый размер выборки при тех же `alpha` и мощности. Удаление всех платящих ломает саму метрику, рост `alpha` ухудшает контроль ошибки I рода, а добавление третьей группы только увеличивает общее число нужных наблюдений.

Разбор

Ещё вопросы по теме «Размер выборки и мощность теста»