Question 1

В отчёте вам нужно: (a) 95% интервал для медианы времени доставки, (b) `p-value` для гипотезы, что две группы одинаковы по среднему времени доставки. Какое сочетание методов наиболее уместно?

Accepted Answer

`Bootstrap` удобен для интервалов, а перестановочный тест — для проверки гипотезы через перестановки. `Bootstrap` строит эмпирическое распределение статистики (например, медианы) и даёт доверительный интервал без сложных формул. Перестановочный тест строит нулевое распределение при истинной нулевой гипотезе и даёт `p-value` без строгой опоры на нормальность. Типичная ошибка — путать интервал и тест и выдавать один инструмент за другой без корректной интерпретации. Нормальная аппроксимация без проверки условий применима не всегда, а отказ от расчётов оставляет отчёт без вывода.

Question 2

Какое утверждение про ограничения метода `bootstrap` наиболее корректно?

Accepted Answer

Ресэмплинг оценивает вариативность, но не исправляет систематические ошибки данных. `Bootstrap` переиспользует те же наблюдения, поэтому не может добавить недостающие группы и не лечит смещение выборки. Если данные собраны с ошибкой или выборка нерепрезентативна, интервал аккуратно описывает неопределённость вокруг неправильной оценки. Типичная ошибка — пытаться компенсировать смещение, увеличивая число повторов `bootstrap` вместо улучшения данных или дизайна исследования.

Question 3

В A/B-тесте группы сформированы случайно, а распределение метрики далеко от нормального. Нужно получить `p-value` для гипотезы «разницы нет». Что наиболее естественно использовать?

Accepted Answer

При случайном распределении групп перестановочный тест даёт прямой способ получить `p-value` без предположения нормальности. Перестановочный тест строит распределение статистики при гипотезе «разницы нет» через перестановки меток групп, что хорошо сочетается с логикой случайного распределения. Это особенно полезно для метрик с тяжёлыми хвостами и нестандартных статистик. Типичная ошибка — применять перестановочный тест к данным, где группы не обменяемы (например, разные источники трафика), и получать некорректный `p-value`. Подменять `p-value` средним значением или интервалом без оговорок тоже неверно.

Question 4

У каждого пользователя много событий, и события внутри пользователя коррелированы. Вы хотите оценить неопределённость метрики на уровне пользователя через `bootstrap`. Что корректнее пересэмплировать?

Accepted Answer

При зависимости внутри пользователя лучше делать кластерный `bootstrap` по пользователям. Если пересэмплировать отдельные события, вы будете считать их независимыми и обычно занизите дисперсию. Кластерный `bootstrap` сохраняет структуру данных внутри пользователя и корректнее отражает неопределённость на нужной единице наблюдения. Типичная ошибка — смешать уровни агрегации и получить слишком узкие интервалы.

Question 5

Вы сделали 2000 повторов `bootstrap` для разницы средних A−B и получили 2000 значений разницы. Что из этого является эмпирическим распределением разницы средних?

Accepted Answer

Эмпирическое распределение — это распределение значений статистики, полученных через ресэмплинг. В `bootstrap` нас интересует не распределение наблюдений, а распределение самой статистики при повторении выборки. Набор `bootstrap`-реплик задаёт эмпирическое распределение, из которого берут стандартную ошибку и доверительные интервалы. Типичная ошибка — интерпретировать гистограмму реплик как распределение исходной метрики или путать её со списком исходных значений у пользователей.

Бутстреп и перестановочные тесты: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика