Ratio-метрики и бутстреп: вопросы для собеседования (часть 3)
Revenue per user, CTR, конверсия — всё это ratio-метрики, для которых стандартный t-test может давать некорректные результаты. Delta-метод, линеаризация, бутстреп — методы, которые решают эту проблему. Вопросы про ratio-метрики показывают, насколько глубоко кандидат понимает статистику за A/B-тестами.
Вопросы 11–15 из 20
11Почему анализ `ratio metric` вроде `CTR` часто нельзя делать как «обычный средний показатель» без оговорок?
A`CTR` всегда нормально распределен, поэтому любые методы дадут один ответ
BУ `ratio metric` нет дисперсии, поэтому статистика не нужна
C`CTR` не зависит от показов, поэтому знаменатель можно игнорировать
DЗнаменатель может меняться и быть связан с эффектом, из-за чего меняются и оценка, и стандартная ошибка
Ответ: `ratio metric` зависит от вариативности и возможного изменения знаменателя, что влияет на оценку эффекта и неопределенность.
Если вариант влияет на количество показов, то `CTR` может вырасти даже при неизменных кликах, просто из-за снижения знаменателя. Кроме того, у пользователей разные знаменатели, и наивное усреднение долей может исказить вклад наблюдений. Поэтому часто применяют `delta method` (дельта-метод для ratio-метрик) или `bootstrap`, чтобы корректно оценить дисперсию и доверительный интервал.
12Когда `delta method` (дельта-метод для ratio-метрик) обычно дает приемлемое приближение для разницы в `CTR`?
AКогда выборка маленькая, но очень хочется быстрый ответ
BКогда у большого числа пользователей знаменатель равен нулю или почти нулю
CКогда распределение эффекта заведомо двухвершинное и сильно несимметричное
DКогда выборка большая и знаменатель достаточно «стабильный» и далеко от нуля
Ответ: `delta method` (дельта-метод для ratio-метрик) лучше работает при больших выборках и при отсутствии нестабильности знаменателя.
Линейное приближение становится точнее, когда выполнена асимптотика и нет «взрывов» отношения из-за малых знаменателей. Если у многих наблюдений знаменатель нулевой или очень маленький, `ratio metric` становится крайне шумной. Тогда приближение для стандартной ошибки может быть плохим, и стоит рассмотреть `bootstrap`.
13В A/B тесте вы сравниваете `ARPU`: большинство пользователей дают 0, но иногда бывают очень крупные покупки; выборка умеренная. Какой подход чаще всего более надежен для `p-value` и `confidence interval`?
AИспользовать только `delta method` (дельта-метод для ratio-метрик) без проверок распределения
BСделать `bootstrap` на уровне пользователей и оценить распределение разницы
CПрименить `z-test` для долей, игнорируя величину покупок
DСравнить медианы через `t-test`
Ответ: Для сильно скошенных метрик типа `ARPU` `bootstrap` часто дает более устойчивую оценку неопределенности, чем линейные приближения.
При тяжелых хвостах среднее может быть нестабильным, а асимптотическая нормальность наступает медленно. `bootstrap` учитывает реальную форму распределения и влияние редких крупных чеков, если вы ресэмплируете пользователей как единицы рандомизации. При этом важно корректно задавать число итераций и контролировать воспроизводимость.
14Эксперимент рандомизируется по пользователям, а метрика `CTR` считается как клики/показы. Как корректнее всего настроить `bootstrap` для оценки разницы вариантов?
AРесэмплировать отдельные показы, игнорируя принадлежность пользователю
BРесэмплировать клики и показы отдельно друг от друга
CРесэмплировать только дни и считать `CTR` по дням
DРесэмплировать пользователей с возвращением в каждом варианте и каждый раз пересчитывать отношение сумм
Ответ: В `bootstrap` нужно ресэмплировать на уровне единицы рандомизации и пересчитывать `ratio metric` как отношение сумм.
Если рандомизация по пользователю, внутри пользователя наблюдения зависимы и это нужно сохранять. Поэтому в каждом бутстрап-репликате выбирают пользователей с возвращением, суммируют клики и показы по выбранным пользователям и считают `CTR`. Так получают эмпирическое распределение эффекта без жестких предположений о форме распределения.
15Какая ошибка в `bootstrap` чаще всего приводит к некорректной оценке дисперсии для `CTR`?
AПересчитывать `CTR` в каждой реплике как отношение суммарных кликов к суммарным показам
BРесэмплировать пользователей с возвращением в каждом варианте
CРесэмплировать числитель и знаменатель отдельно, как независимые выборки
DФиксировать seed для воспроизводимости вычислений
Ответ: Нельзя бутстрапить числитель и знаменатель отдельно, если они статистически зависимы.
Клики и показы обычно связаны: больше показов часто означает больше возможностей для кликов. Если бутстрапить их независимо, вы разрушаете зависимость и можете занизить дисперсию эффекта. Правильнее ресэмплировать исходные наблюдения на уровне единицы рандомизации и пересчитывать `ratio metric` целиком.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram