Бутстреп и перестановочные тесты: вопросы для собеседования (часть 4)

Бутстреп позволяет оценить распределение статистики без параметрических предпосылок — просто перевыборкой с возвращением. Перестановочные тесты проверяют гипотезы без предположений о распределении данных. На собеседовании просят объяснить алгоритм бутстрепа, когда он предпочтительнее аналитических методов и в чём его ограничения.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияВыборка и смещениеТесты для среднихТесты для долей

Вопросы 1620 из 20

16Как в `permutation test` обычно оценивают `p-value` для наблюдаемой статистики?
AБерут среднее значение статистики по перестановкам
BСравнивают `p-value` с 0.05 без перестановок
CДелят разницу средних на стандартное отклонение исходных данных
DСчитают долю перестановок, где статистика не менее экстремальна, чем наблюдаемая (с учётом односторонности/двусторонности)
Ответ: В `permutation test` `p-value` — это доля перестановок, дающих статистику не менее экстремальную, чем наблюдаемая.

Мы фиксируем исходные данные и многократно переставляем метки групп, получая распределение статистики при `H0`. Далее сравниваем наблюдаемую статистику с этим распределением и считаем долю перестановок, где значение столь же экстремально. Важно заранее выбрать односторонний или двусторонний критерий, иначе легко ошибиться в интерпретации.

17Метрика `ARPU = sum(revenue)/count(users)`, у пользователя может быть несколько покупок. Вы хотите оценить разницу `ARPU` между A и B через `bootstrap`. Какой `ресэмплинг` наиболее корректен?
AПересэмплировать транзакции как независимые наблюдения, игнорируя пользователей
BПересэмплировать `sum(revenue)` отдельно от `count(users)` и делить их между собой
CПересэмплировать пользователей целиком (с их выручкой), а затем считать `ARPU` в каждой реплике
DПеремешать выручку между пользователями и назвать это `bootstrap`
Ответ: В `bootstrap` важно пересэмплировать на уровне единицы наблюдения, которая определяет метрику.

Если метрика определена на уровне пользователя, пересэмплировать нужно пользователей, а не события, иначе вы нарушите структуру зависимости и занизите дисперсию. Пересэмплирование числителя и знаменателя отдельно ломает их связь и даёт некорректные интервалы. Типичная ошибка — считать, что любые повторные выборки 'подойдут', хотя уровень `ресэмплинг` принципиален.

18В `permutation test` вы сделали 1000 перестановок и в 23 из них статистика была не менее экстремальной, чем наблюдаемая. Какая оценка `p-value` наиболее подходит в этом описании?
A0.23
B0.0023
C0.05
D0.023
Ответ: Оценка `p-value` в `permutation test` — это доля 'экстремальных' перестановок.

Если в 23 из 1000 перестановок статистика оказалась не менее экстремальной, чем наблюдаемая, естественная оценка `p-value` равна 23/1000. Иногда используют сглаживание `(k+1)/(N+1)`, чтобы избежать нулевого `p-value` при `k=0`. Типичная ошибка — перепутать порядок величины и случайно умножить или разделить ещё раз.

19Какое допущение является ключевым для корректности `permutation test` при проверке `H0` в A/B-сценарии?
AМетрика должна иметь `normal distribution`
BНужно минимум 30 наблюдений в каждой группе
CДанные должны быть без выбросов и с одинаковой дисперсией
DПри `H0` наблюдения обменяемы между группами, то есть метки групп можно переставлять без изменения распределения
Ответ: `Permutation test` опирается на обменяемость меток при `H0`.

Если группы сформированы случайно, то при истинной `H0` различие меток не должно иметь значения, и перестановки воспроизводят нулевое распределение статистики. Если же метки связаны с составом аудитории или временем, обменяемость нарушается, и `p-value` может стать некорректным. Типичная ошибка — применять `permutation test` к наблюдательным данным без обсуждения предпосылок.

20Вы сравниваете две версии продукта, но группы сформированы не рандомно: версия A только в одном регионе, версия B только в другом. Команда хочет применить `permutation test`, переставляя метки. Что корректнее всего сказать?
A`Permutation test` всегда корректен, потому что перестановки заменяют рандомизацию
BНужно просто сделать больше перестановок, и проблема исчезнет
CДостаточно применить `bootstrap`, и тогда причинный вывод станет корректным
DБез обменяемости меток перестановки не моделируют `H0`; `permutation test` может быть некорректен, а `bootstrap` даст лишь интервал для разницы в этих данных, но не уберёт `confounding`
Ответ: Без обменяемости меток перестановки не отражают `H0`, поэтому `permutation test` может дать некорректный `p-value`.

В наблюдательном дизайне метка версии связана с регионом, а регион может влиять на метрику, поэтому простая перестановка меток нарушает структуру данных. `Bootstrap` в таком случае может оценить неопределённость наблюдаемой разницы, но не делает вывод причинным. Для причинного вывода нужен дизайн с рандомизацией или явный контроль факторов, иначе легко принять региональный эффект за эффект фичи.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияВыборка и смещениеТесты для среднихТесты для долей