В A/B-тесте группы сформированы случайно, а распределение метрики далеко от нормального. Вам нужен p-value для H0: разницы нет. Что наиболее естественно использовать?
AСчитать
p-value как 1 минус среднее значение метрикиBСтроить только
bootstrap интервал и называть его p-value без оговорокCИспользовать визуальную проверку и не считать
p-valueDСделать
permutation test, переставляя метки групп и сравнивая статистику с наблюдаемойПравильный ответ. При рандомизации
permutation test даёт прямой способ получить p-value без предположения нормальности.Разбор
Перестановочный тест строит распределение статистики при H0 через перестановки меток, что хорошо сочетается с логикой рандомизации. Это особенно полезно для метрик с тяжёлыми хвостами или нестандартных статистик. Типичная ошибка — применять permutation test к данным, где группы не обменяемы (например, разные источники трафика), и получать некорректный p-value.
Проверь себя · 1/3разбор после ответа
У каждого пользователя много событий, и события внутри пользователя коррелированы. Вы хотите оценить неопределённость метрики на уровне пользователя через
bootstrap. Что корректнее пересэмплировать?Ещё вопросы по теме «Бутстреп и перестановочные тесты»
- Что делает `bootstrap` на одном шаге, чтобы получить одну реплику статистики?
- Какая ключевая идея лежит в основе `permutation test` при проверке `H0` об отсутствии разницы между группами?
- Вы сделали 2000 повторов `bootstrap` для разницы средних A−B и получили 2000 значений разницы. Что из этого является `эмпирическое распределение` разницы средних?
- Как в `permutation test` обычно оценивают `p-value` для наблюдаемой статистики?
- Метрика имеет тяжёлые хвосты и сложную формулу (например, `revenue per user`). Какой подход часто удобен, чтобы оценить неопределённость оценки без сложных выводов формул?
- Все вопросы по «Бутстреп и перестановочные тесты» →