Question 1

У вас есть эмпирическое распределение статистики из `bootstrap`-реплик. Что из него можно получить напрямую?

Accepted Answer

Эмпирическое распределение статистики из `bootstrap` позволяет напрямую оценивать неопределённость самой оценки. Стандартную ошибку можно оценить как стандартное отклонение `bootstrap`-реплик, а доверительные интервалы — как квантили (например, 2.5% и 97.5%). Это практичный способ, когда аналитические формулы неудобны или неприменимы. Типичная ошибка — пытаться трактовать `bootstrap` как инструмент причинности или способ исправить нерепрезентативность выборки.

Question 2

Что делает `bootstrap` на одном шаге, чтобы получить одну реплику статистики?

Accepted Answer

В `bootstrap` мы много раз пересэмплируем данные с возвращением и пересчитываем статистику. Каждая `bootstrap`-реплика — это новая выборка размера `n`, собранная из исходных наблюдений с повторениями. Повторяя это много раз, мы получаем эмпирическое распределение статистики и можем оценивать неопределённость. Типичная ошибка — перепутать `bootstrap` с `permutation test`, где переставляют метки, а не пересэмплируют наблюдения.

Question 3

Какая ключевая идея лежит в основе перестановочного теста при проверке нулевой гипотезы об отсутствии разницы между группами?

Accepted Answer

Перестановочный тест строит распределение статистики при нулевой гипотезе, переставляя метки групп между наблюдениями. Если нулевая гипотеза верна, то метки групп не должны влиять на значения метрики, и наблюдения становятся обменяемыми. Мы многократно переставляем метки, пересчитываем статистику и получаем распределение при нулевой гипотезе. Затем оцениваем `p-value` как долю перестановок, где статистика не менее экстремальна, чем наблюдаемая. Это непараметрический подход, не требующий нормального приближения.

Question 4

Метрика имеет тяжёлые хвосты и сложную формулу (например, выручка на пользователя). Какой подход часто удобен, чтобы оценить неопределённость оценки без сложных выводов формул?

Accepted Answer

`Bootstrap` полезен, когда формулы для ошибки и интервала неочевидны, а метрика сложная. Идея `bootstrap` — получить эмпирическое распределение статистики напрямую из данных через ресэмплинг с возвращением. Это позволяет оценивать стандартную ошибку и строить доверительные интервалы для сложных метрик. Типичная ошибка — думать, что `bootstrap` исправляет качество данных; он оценивает неопределённость относительно текущей выборки.

Question 5

95-процентный `bootstrap` доверительный интервал для разницы метрики A−B включает ноль. Как корректнее всего это интерпретировать?

Accepted Answer

Если интервал для разницы включает ноль, данные совместимы с отсутствием эффекта, но это не доказательство его отсутствия. Доверительный интервал отражает неопределённость оценки: при таких данных правдоподобны разные значения эффекта, включая ноль. Это не является доказательством, что эффекта нет, но говорит, что уверенно отделить эффект от нуля сложно. Типичная ошибка — трактовать включение нуля как окончательное опровержение гипотезы и игнорировать саму оценку эффекта и ширину интервала.

Вопросы по теме «Бутстреп и перестановочные тесты»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика