Вы сделали 2000 повторов bootstrap для разницы средних A−B и получили 2000 значений разницы. Что из этого является эмпирическое распределение разницы средних?
AОдно значение разницы, посчитанное на исходных данных
BСписок исходных значений метрики у пользователей
CНабор из 2000
bootstrap-значений статистики (и его квантили/гистограмма)DТаблица сегментов с их средними значениями
Правильный ответ.
Эмпирическое распределение — это распределение значений статистики, полученных через ресэмплинг.Разбор
В bootstrap нас интересует не распределение наблюдений, а распределение самой статистики при повторении выборки. Набор bootstrap-реплик задаёт эмпирическое распределение, из которого берут стандартную ошибку и доверительные интервалы. Типичная ошибка — интерпретировать гистограмму реплик как распределение исходной метрики.
Проверь себя · 1/3разбор после ответа
У каждого пользователя много событий, и события внутри пользователя коррелированы. Вы хотите оценить неопределённость метрики на уровне пользователя через
bootstrap. Что корректнее пересэмплировать?Ещё вопросы по теме «Бутстреп и перестановочные тесты»
- Что делает `bootstrap` на одном шаге, чтобы получить одну реплику статистики?
- Какая ключевая идея лежит в основе `permutation test` при проверке `H0` об отсутствии разницы между группами?
- Как в `permutation test` обычно оценивают `p-value` для наблюдаемой статистики?
- Метрика имеет тяжёлые хвосты и сложную формулу (например, `revenue per user`). Какой подход часто удобен, чтобы оценить неопределённость оценки без сложных выводов формул?
- Какое утверждение про ограничения `bootstrap` наиболее корректно?
- Все вопросы по «Бутстреп и перестановочные тесты» →