Бутстреп и перестановочные тесты: вопросы для собеседования (часть 2)
Бутстреп позволяет оценить распределение статистики без параметрических предпосылок — просто перевыборкой с возвращением. Перестановочные тесты проверяют гипотезы без предположений о распределении данных. На собеседовании просят объяснить алгоритм бутстрепа, когда он предпочтительнее аналитических методов и в чём его ограничения.
Вопросы 6–10 из 20
6Почему в `bootstrap` обычно пересэмплируют наблюдения `с возвращением`?
AЧтобы каждое наблюдение попадало ровно один раз
BЧтобы полностью уничтожить любые зависимости и сделать данные независимыми
CЧтобы имитировать повторные выборки из неизвестной популяции, используя наблюдаемые данные как приближение популяции
DЧтобы гарантированно получить меньшую дисперсию, чем у исходной статистики
Ответ: `Bootstrap` рассматривает выборку как приближение популяции и делает `ресэмплинг` с возвращением.
С возвращением одно и то же наблюдение может появляться несколько раз, а какие-то не появятся в конкретной реплике, что создаёт вариативность статистики. Это похоже на идею повторных выборок из большой популяции, которую мы не видим напрямую. Типичная ошибка — пересэмплировать без возвращения и получать почти ту же выборку, из-за чего неопределённость будет занижена.
7В классическом `bootstrap` какой размер обычно имеет каждая пересэмплированная выборка относительно исходной выборки размера `n`?
AТот же размер `n`, но с возможными повторами наблюдений
BВ два раза больше `n`, чтобы снизить дисперсию
CНа 1 меньше `n`, чтобы имитировать `leave-one-out`
DСлучайный размер в каждом повторе, чтобы избежать смещения
Ответ: Обычно каждая `bootstrap`-выборка имеет размер `n` и содержит повторы.
Так сохраняется сопоставимость статистики между исходными данными и репликами: мы всегда считаем её на выборке одного масштаба. Повторы и пропуски отдельных наблюдений создают вариативность, из которой строят `эмпирическое распределение` статистики. Типичная ошибка — менять размер выборки без понимания, как это влияет на интерпретацию интервала и `SE`.
8Если `bootstrap`-распределение статистики заметно асимметрично, какой способ построения интервала чаще более уместен?
AПроцентильный интервал по квантилям эмпирического распределения
BИнтервал `estimate ± 1.96*SE` без учёта формы распределения
CСчитать только одно число и отказаться от интервалов
DЗаменить интервал на `permutation test`, потому что интервалы невозможны
Ответ: Процентильный интервал использует форму эмпирического распределения, а не предположение симметрии.
При сильной асимметрии интервал вида `estimate ± 1.96*SE` может быть плохо калиброван и давать неинтуитивные границы. Процентильный интервал берёт квантили из `bootstrap`-реплик и лучше отражает форму распределения статистики. Типичная ошибка — взять неправильные квантили для нужного уровня, например перепутать границы двустороннего интервала.
9Вы увеличили число повторов `bootstrap` с 500 до 10000. Что изменится в первую очередь?
AИстинная неопределённость станет меньше, потому что данных стало больше
BВыборка станет репрезентативнее популяции, потому что повторов больше
CОценка `SE` и интервалов станет более стабильной из-за меньшего `Monte Carlo`-шума, но новой информации не появится
DСистематическое смещение исчезнет автоматически
Ответ: Больше повторов снижает шум симуляции, но не заменяет увеличение данных.
Число повторов влияет на точность оценки квантилей и `SE` как результата симуляции: больше повторов — меньше случайного шума вычисления. Но сами данные не меняются, поэтому истинная неопределённость и возможное смещение остаются теми же. Типичная ошибка — путать увеличение числа повторов с ростом размера выборки `n`.
10В `permutation test` для разницы метрики между группами A и B что нужно сохранять при перестановках?
AЗначения метрики нужно менять, а метки оставлять фиксированными
BНужно сохранять общий набор наблюдений и размеры групп, случайно переназначая метки A/B наблюдениям
CНужно сохранять среднее каждой группы неизменным в каждой перестановке
DНужно переставлять наблюдения только внутри каждой группы, не меняя метки
Ответ: В перестановочном тесте мы фиксируем данные и переставляем метки, сохраняя размеры групп.
Логика `permutation test` — смоделировать, какие значения статистики возможны при `H0`, если метки групп не несут информации. Поэтому мы объединяем наблюдения, перемешиваем метки и заново делим на группы тех же размеров. Типичная ошибка — пересэмплировать с возвращением и получить уже другой тест, ближе к `bootstrap`.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram