Метрика «выручка на пользователя» очень шумная: есть редкие большие чеки, из-за чего дисперсия высокая и требуемый размер выборки растёт. Что чаще всего уменьшит размер выборки при неизменных alpha и мощности, не меняя смысл метрики полностью?
AИсключить пользователей с покупками для снижения дисперсии метрики, чтобы быстрее достичь нужного размера выборки в эксперименте
BПоднять уровень значимости
alpha до 0.1 или 0.2 ради меньшего размера выборки при сохранении прежней мощности тестаCДобавить третий вариант
C в тест и распределять трафик на три группы, чтобы увеличить общее число наблюдений в экспериментеDСнизить дисперсию метрики устойчивыми техниками
winsorization или trimming при сохранении смысла исходной метрикиПравильный ответ. Снижение дисперсии метрики через устойчивую агрегацию часто уменьшает необходимый размер выборки при заданных
alpha и мощности.Разбор
Метрики с тяжёлыми хвостами дают большую дисперсию, поэтому для стабильной оценки среднего нужно больше данных. Устойчивые техники вроде winsorization (усечение на крайних процентилях) или trimming уменьшают влияние редких экстремальных значений и сохраняют интерпретацию, близкую к исходной метрике. Это снижает дисперсию и, следовательно, уменьшает требуемый размер выборки при тех же alpha и мощности. Удаление всех платящих ломает саму метрику, рост alpha ухудшает контроль ошибки I рода, а добавление третьей группы только увеличивает общее число нужных наблюдений.
Проверь себя · 1/3разбор после ответа
Калькулятор размера выборки дал требование
N_treat = 20000 и N_control = 20000. В эксперимент ежедневно попадает 5000 новых пользователей при разбиении 50/50. Какова минимальная длительность теста в днях при стабильном трафике?Ещё вопросы по теме «Размер выборки и мощность теста»
- Какое утверждение про `alpha`, `beta` и `power` верное?
- Вы планируете тест с фиксированными уровнем значимости и мощностью и решили уменьшить `MDE` с 5% до 2%. Что произойдёт с требуемыми размером выборки и длительностью теста при том же трафике?
- Команда хочет детектить относительный `MDE` = 5% в метрике конверсии. Сравните два продукта: базовая конверсия 1% и базовая конверсия 10%. При одинаковом относительном `MDE` где обычно нужен больший размер выборки и почему?
- Калькулятор размера выборки дал требование `N_treat = 20000` и `N_control = 20000`. В эксперимент ежедневно попадает 5000 новых пользователей при разбиении 50/50. Какова минимальная длительность теста в днях при стабильном трафике?
- Вы держите `MDE` и `power` фиксированными, но хотите снизить `alpha` с 5% до 1%. Что в среднем произойдёт с требуемым размером выборки?
- Все вопросы по «Размер выборки и мощность теста» →