95-процентный bootstrap доверительный интервал для разницы метрики A−B включает ноль. Как корректнее всего это интерпретировать?

AЭто строго доказывает, что эффект равен нулю и варианты A и B полностью эквивалентны на популяции
BПо данным нет достаточно оснований утверждать отличия на уровне 0.05; эффект может быть как положительным, так и отрицательным
CДостаточно увеличить число bootstrap повторов, и тогда интервал гарантированно перестанет включать ноль на той же выборке
DЭто автоматически означает, что permutation test на тех же данных дал бы p-value строго меньше 0.05
Правильный ответ. Если интервал для разницы включает ноль, данные совместимы с отсутствием эффекта, но это не доказательство его отсутствия.

Разбор

Доверительный интервал отражает неопределённость оценки: при таких данных правдоподобны разные значения эффекта, включая ноль. Это не является доказательством, что эффекта нет, но говорит, что уверенно отделить эффект от нуля сложно. Типичная ошибка — трактовать включение нуля как окончательное опровержение гипотезы и игнорировать саму оценку эффекта и ширину интервала.

Проверь себя · 1/3разбор после ответа
В A/B-тесте группы сформированы случайно, а распределение метрики далеко от нормального. Нужно получить p-value для гипотезы «разницы нет». Что наиболее естественно использовать?
Тренировать статистику в Telegram

Ещё вопросы по теме «Бутстреп и перестановочные тесты»