Бутстреп и перестановочные тесты: вопросы для собеседования (часть 3)

Бутстреп позволяет оценить распределение статистики без параметрических предпосылок — просто перевыборкой с возвращением. Перестановочные тесты проверяют гипотезы без предположений о распределении данных. На собеседовании просят объяснить алгоритм бутстрепа, когда он предпочтительнее аналитических методов и в чём его ограничения.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияВыборка и смещениеТесты для среднихТесты для долей

Вопросы 1115 из 20

11В отчёте вам нужно: (a) 95% интервал для медианы времени доставки, (b) `p-value` для `H0`, что две группы одинаковы по среднему времени доставки. Какое сочетание методов наиболее уместно?
A(a) `permutation test`, (b) `bootstrap`
B(a) `bootstrap`, (b) `permutation test`
C(a) только `normal approximation`, (b) только `normal approximation`
D(a) не считать интервалы, (b) не считать `p-value`
Ответ: `Bootstrap` удобен для интервалов, а `permutation test` — для проверки `H0` через перестановки.

`Bootstrap` строит `эмпирическое распределение` статистики (например, медианы) и даёт доверительный интервал без сложных формул. `Permutation test` строит нулевое распределение при `H0` и даёт `p-value` без строгой опоры на нормальность. Типичная ошибка — путать интервал и тест и выдавать один инструмент за другой без корректной интерпретации.

12Какое утверждение про ограничения `bootstrap` наиболее корректно?
A`Bootstrap` гарантирует причинный вывод так же, как рандомизированный эксперимент
B`Bootstrap` увеличивает реальный размер выборки, поэтому смещение исчезает
C`Bootstrap` не исправляет `selection bias` и систематические ошибки: он лишь оценивает неопределённость относительно имеющихся данных
D`Bootstrap` делает данные независимыми, поэтому подходит для любых временных рядов без оговорок
Ответ: Ресэмплинг оценивает вариативность, но не исправляет систематические ошибки данных.

`Bootstrap` переиспользует те же наблюдения, поэтому не может добавить недостающие группы и не лечит смещение выборки. Если данные собраны с ошибкой или выборка нерепрезентативна, интервал будет аккуратно описывать неопределённость вокруг неправильной оценки. Типичная ошибка — пытаться компенсировать смещение, увеличивая число `bootstrap` повторов вместо улучшения данных или дизайна исследования.

13В A/B-тесте группы сформированы случайно, а распределение метрики далеко от нормального. Вам нужен `p-value` для `H0: разницы нет`. Что наиболее естественно использовать?
AСчитать `p-value` как 1 минус среднее значение метрики
BСтроить только `bootstrap` интервал и называть его `p-value` без оговорок
CИспользовать визуальную проверку и не считать `p-value`
DСделать `permutation test`, переставляя метки групп и сравнивая статистику с наблюдаемой
Ответ: При рандомизации `permutation test` даёт прямой способ получить `p-value` без предположения нормальности.

Перестановочный тест строит распределение статистики при `H0` через перестановки меток, что хорошо сочетается с логикой рандомизации. Это особенно полезно для метрик с тяжёлыми хвостами или нестандартных статистик. Типичная ошибка — применять `permutation test` к данным, где группы не обменяемы (например, разные источники трафика), и получать некорректный `p-value`.

14У каждого пользователя много событий, и события внутри пользователя коррелированы. Вы хотите оценить неопределённость метрики на уровне пользователя через `bootstrap`. Что корректнее пересэмплировать?
AОтдельные события как независимые наблюдения
BПользователей целиком (кластерный `bootstrap`), сохраняя все их события внутри реплики
CТолько средние по дням, игнорируя пользователей
DТолько те события, где значение метрики выше медианы
Ответ: При зависимости внутри пользователя лучше делать кластерный `bootstrap` по пользователям.

Если пересэмплировать отдельные события, вы будете считать их независимыми и обычно занизите дисперсию. Кластерный `bootstrap` сохраняет структуру данных внутри пользователя и корректнее отражает неопределённость на нужной единице наблюдения. Типичная ошибка — смешать уровни агрегации и получить слишком узкие интервалы.

15Вы сделали 2000 повторов `bootstrap` для разницы средних A−B и получили 2000 значений разницы. Что из этого является `эмпирическое распределение` разницы средних?
AОдно значение разницы, посчитанное на исходных данных
BСписок исходных значений метрики у пользователей
CНабор из 2000 `bootstrap`-значений статистики (и его квантили/гистограмма)
DТаблица сегментов с их средними значениями
Ответ: `Эмпирическое распределение` — это распределение значений статистики, полученных через `ресэмплинг`.

В `bootstrap` нас интересует не распределение наблюдений, а распределение самой статистики при повторении выборки. Набор `bootstrap`-реплик задаёт `эмпирическое распределение`, из которого берут стандартную ошибку и доверительные интервалы. Типичная ошибка — интерпретировать гистограмму реплик как распределение исходной метрики.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияВыборка и смещениеТесты для среднихТесты для долей