Вопросы по теме «Бутстреп и перестановочные тесты»
Бутстреп позволяет оценить распределение статистики без параметрических предпосылок — просто перевыборкой с возвращением. Перестановочные тесты проверяют гипотезы без предположений о распределении данных. На собеседовании просят объяснить алгоритм бутстрепа, когда он предпочтительнее аналитических методов и в чём его ограничения.
Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.
Вопросы 1–5 из 20
1У вас есть `эмпирическое распределение` статистики из `bootstrap`-реплик. Что из него можно получить напрямую?
AСтандартную ошибку и доверительный интервал, например по квантилям распределения
BИстинную причинную связь между изменением и метрикой
CТочный размер всей популяции пользователей
DГарантированно несмещённую оценку для любой выборки
Ответ: `Эмпирическое распределение` статистики из `bootstrap` позволяет оценивать неопределённость оценки.
Стандартную ошибку можно оценить как стандартное отклонение `bootstrap`-реплик, а интервалы — как квантили (например, 2.5% и 97.5%). Это практичный способ, когда аналитические формулы неудобны. Типичная ошибка — пытаться трактовать `bootstrap` как инструмент причинности или исправления нерепрезентативности.
2Что делает `bootstrap` на одном шаге, чтобы получить одну реплику статистики?
AБерёт выборку того же размера `n` с возвращением и пересчитывает статистику
BПеремешивает метки групп A/B и пересчитывает статистику
CДобавляет синтетические наблюдения, чтобы увеличить выборку
DУдаляет выбросы и пересчитывает среднее на очищенных данных
Ответ: В `bootstrap` мы много раз пересэмплируем данные с возвращением и пересчитываем статистику.
Каждая `bootstrap`-реплика — это новая выборка размера `n`, собранная из исходных наблюдений с повторениями. Повторяя это много раз, мы получаем `эмпирическое распределение` статистики и можем оценивать неопределённость. Типичная ошибка — перепутать `bootstrap` с `permutation test`, где переставляют метки, а не пересэмплируют наблюдения.
3Какая ключевая идея лежит в основе `permutation test` при проверке `H0` об отсутствии разницы между группами?
AМного раз брать выборки с возвращением и строить интервал
BПереставлять метки групп и смотреть, насколько часто статистика столь же экстремальна, как наблюдаемая
CУдалять выбросы и повторять тест до значимости
DСразу применять `normal approximation` к любой метрике
Ответ: `Permutation test` строит распределение статистики при `H0`, переставляя метки групп.
Если `H0` верна, то метки групп не должны влиять на значения метрики, и наблюдения становятся обменяемыми. Мы многократно переставляем метки, пересчитываем статистику и получаем распределение при `H0`. Затем оцениваем `p-value` как долю перестановок, где статистика не менее экстремальна, чем наблюдаемая.
4Метрика имеет тяжёлые хвосты и сложную формулу (например, `revenue per user`). Какой подход часто удобен, чтобы оценить неопределённость оценки без сложных выводов формул?
AВсегда считать, что данные нормальные, и игнорировать форму распределения
BИспользовать `bootstrap`, построив `эмпирическое распределение` статистики из данных
CИспользовать только `permutation test`, потому что интервалы не нужны
DУвеличить `alpha`, чтобы быстрее получать значимость
Ответ: `Bootstrap` полезен, когда формулы для ошибки и интервала неочевидны, а метрика сложная.
Идея `bootstrap` — получить `эмпирическое распределение` статистики напрямую из данных через `ресэмплинг`. Это позволяет оценивать стандартную ошибку и строить доверительные интервалы для сложных метрик. Типичная ошибка — думать, что `bootstrap` исправляет качество данных; он оценивает неопределённость относительно текущей выборки.
595% `bootstrap` доверительный интервал для разницы метрики A−B включает 0. Как корректнее всего это интерпретировать?
AПо данным нет достаточно оснований утверждать отличия на уровне 0.05; эффект может быть как положительным, так и отрицательным
BЭффект точно равен 0
CДостаточно увеличить число `bootstrap` повторов, и интервал обязательно перестанет включать 0
DЭто доказывает, что `permutation test` дал бы `p-value < 0.05`
Ответ: Если интервал для разницы включает 0, данные совместимы с отсутствием эффекта.
Доверительный интервал отражает неопределённость оценки: при таких данных правдоподобны разные значения эффекта, включая 0. Это не является доказательством, что эффекта нет, но говорит, что уверенно отделить эффект от нуля сложно. Типичная ошибка — трактовать включение 0 как окончательное опровержение гипотезы и игнорировать оценку эффекта и ширину интервала.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram