95% bootstrap доверительный интервал для разницы метрики A−B включает 0. Как корректнее всего это интерпретировать?
AПо данным нет достаточно оснований утверждать отличия на уровне 0.05; эффект может быть как положительным, так и отрицательным
BЭффект точно равен 0
CДостаточно увеличить число
bootstrap повторов, и интервал обязательно перестанет включать 0DЭто доказывает, что
permutation test дал бы p-value < 0.05Правильный ответ. Если интервал для разницы включает 0, данные совместимы с отсутствием эффекта.
Разбор
Доверительный интервал отражает неопределённость оценки: при таких данных правдоподобны разные значения эффекта, включая 0. Это не является доказательством, что эффекта нет, но говорит, что уверенно отделить эффект от нуля сложно. Типичная ошибка — трактовать включение 0 как окончательное опровержение гипотезы и игнорировать оценку эффекта и ширину интервала.
Проверь себя · 1/3разбор после ответа
У каждого пользователя много событий, и события внутри пользователя коррелированы. Вы хотите оценить неопределённость метрики на уровне пользователя через
bootstrap. Что корректнее пересэмплировать?Ещё вопросы по теме «Бутстреп и перестановочные тесты»
- Что делает `bootstrap` на одном шаге, чтобы получить одну реплику статистики?
- Какая ключевая идея лежит в основе `permutation test` при проверке `H0` об отсутствии разницы между группами?
- Вы сделали 2000 повторов `bootstrap` для разницы средних A−B и получили 2000 значений разницы. Что из этого является `эмпирическое распределение` разницы средних?
- Как в `permutation test` обычно оценивают `p-value` для наблюдаемой статистики?
- Метрика имеет тяжёлые хвосты и сложную формулу (например, `revenue per user`). Какой подход часто удобен, чтобы оценить неопределённость оценки без сложных выводов формул?
- Все вопросы по «Бутстреп и перестановочные тесты» →