Question 1

Как в `permutation test` обычно оценивают `p-value` для наблюдаемой статистики?

Accepted Answer

В `permutation test` `p-value` — это доля перестановок, дающих статистику не менее экстремальную, чем наблюдаемая. Мы фиксируем исходные данные и многократно переставляем метки групп, получая распределение статистики при `H0`. Далее сравниваем наблюдаемую статистику с этим распределением и считаем долю перестановок, где значение столь же экстремально. Важно заранее выбрать односторонний или двусторонний критерий, иначе легко ошибиться в интерпретации.

Question 2

Метрика `ARPU = sum(revenue)/count(users)`, у пользователя может быть несколько покупок. Вы хотите оценить разницу `ARPU` между A и B через `bootstrap`. Какой `ресэмплинг` наиболее корректен?

Accepted Answer

В `bootstrap` важно пересэмплировать на уровне единицы наблюдения, которая определяет метрику. Если метрика определена на уровне пользователя, пересэмплировать нужно пользователей, а не события, иначе вы нарушите структуру зависимости и занизите дисперсию. Пересэмплирование числителя и знаменателя отдельно ломает их связь и даёт некорректные интервалы. Типичная ошибка — считать, что любые повторные выборки 'подойдут', хотя уровень `ресэмплинг` принципиален.

Question 3

В `permutation test` вы сделали 1000 перестановок и в 23 из них статистика была не менее экстремальной, чем наблюдаемая. Какая оценка `p-value` наиболее подходит в этом описании?

Accepted Answer

Оценка `p-value` в `permutation test` — это доля 'экстремальных' перестановок. Если в 23 из 1000 перестановок статистика оказалась не менее экстремальной, чем наблюдаемая, естественная оценка `p-value` равна 23/1000. Иногда используют сглаживание `(k+1)/(N+1)`, чтобы избежать нулевого `p-value` при `k=0`. Типичная ошибка — перепутать порядок величины и случайно умножить или разделить ещё раз.

Question 4

Какое допущение является ключевым для корректности `permutation test` при проверке `H0` в A/B-сценарии?

Accepted Answer

`Permutation test` опирается на обменяемость меток при `H0`. Если группы сформированы случайно, то при истинной `H0` различие меток не должно иметь значения, и перестановки воспроизводят нулевое распределение статистики. Если же метки связаны с составом аудитории или временем, обменяемость нарушается, и `p-value` может стать некорректным. Типичная ошибка — применять `permutation test` к наблюдательным данным без обсуждения предпосылок.

Question 5

Вы сравниваете две версии продукта, но группы сформированы не рандомно: версия A только в одном регионе, версия B только в другом. Команда хочет применить `permutation test`, переставляя метки. Что корректнее всего сказать?

Accepted Answer

Без обменяемости меток перестановки не отражают `H0`, поэтому `permutation test` может дать некорректный `p-value`. В наблюдательном дизайне метка версии связана с регионом, а регион может влиять на метрику, поэтому простая перестановка меток нарушает структуру данных. `Bootstrap` в таком случае может оценить неопределённость наблюдаемой разницы, но не делает вывод причинным. Для причинного вывода нужен дизайн с рандомизацией или явный контроль факторов, иначе легко принять региональный эффект за эффект фичи.

Бутстреп и перестановочные тесты: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика