Метрика «выручка на пользователя» очень шумная: есть редкие большие чеки, из-за чего дисперсия высокая и требуемый размер выборки растёт. Что чаще всего уменьшит размер выборки при неизменных alpha и мощности, не меняя смысл метрики полностью?

AИсключить пользователей с покупками для снижения дисперсии метрики, чтобы быстрее достичь нужного размера выборки в эксперименте
BПоднять уровень значимости alpha до 0.1 или 0.2 ради меньшего размера выборки при сохранении прежней мощности теста
CДобавить третий вариант C в тест и распределять трафик на три группы, чтобы увеличить общее число наблюдений в эксперименте
DСнизить дисперсию метрики устойчивыми техниками winsorization или trimming при сохранении смысла исходной метрики
Правильный ответ. Снижение дисперсии метрики через устойчивую агрегацию часто уменьшает необходимый размер выборки при заданных alpha и мощности.

Разбор

Метрики с тяжёлыми хвостами дают большую дисперсию, поэтому для стабильной оценки среднего нужно больше данных. Устойчивые техники вроде winsorization (усечение на крайних процентилях) или trimming уменьшают влияние редких экстремальных значений и сохраняют интерпретацию, близкую к исходной метрике. Это снижает дисперсию и, следовательно, уменьшает требуемый размер выборки при тех же alpha и мощности. Удаление всех платящих ломает саму метрику, рост alpha ухудшает контроль ошибки I рода, а добавление третьей группы только увеличивает общее число нужных наблюдений.

Проверь себя · 1/3разбор после ответа
Калькулятор размера выборки дал требование N_treat = 20000 и N_control = 20000. В эксперимент ежедневно попадает 5000 новых пользователей при разбиении 50/50. Какова минимальная длительность теста в днях при стабильном трафике?
Тренировать A/B в Telegram

Ещё вопросы по теме «Размер выборки и мощность теста»