Ratio-метрики и бутстреп: вопросы для собеседования (часть 4)

Revenue per user, CTR, конверсия — всё это ratio-метрики, для которых стандартный t-test может давать некорректные результаты. Delta-метод, линеаризация, бутстреп — методы, которые решают эту проблему. Вопросы про ratio-метрики показывают, насколько глубоко кандидат понимает статистику за A/B-тестами.

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED

Вопросы 1620 из 20

16В каком случае применение `delta method` (дельта-метод для ratio-метрик) наиболее рискованно и может дать неверную оценку неопределенности?
AКогда выборка очень большая и знаменатель почти не меняется
BКогда знаменатель может быть очень малым или нулевым, делая отношение нестабильным
CКогда вы используете одинаковые пороги фильтрации в обоих вариантах
DКогда метрика считается на фиксированном окне времени
Ответ: `delta method` (дельта-метод для ratio-метрик) плохо переносит нестабильный или близкий к нулю знаменатель и сильную нелинейность эффекта.

При малых знаменателях небольшое изменение числителя сильно меняет отношение, и линейное приближение перестает описывать реальность. Похожая проблема возникает при тяжелых хвостах и выбросах, что часто встречается в `ARPU`. В таких условиях полезнее применять `bootstrap` или предварительно менять постановку метрики и единицу агрегации.

17В варианте B стало больше трафика из сегмента с низким базовым `CTR`, хотя внутри каждого сегмента B чуть улучшает кликабельность. Что может произойти, если сравнить общий `CTR` без учета сегментов?
AОбщий эффект обязательно станет больше, потому что B улучшает внутри сегментов
BЭффект всегда останется тем же, потому что `CTR` не зависит от состава
C`delta method` (дельта-метод для ratio-метрик) автоматически исправит смещение без стратификации
DМожно увидеть мнимое падение или рост общего `CTR` из-за изменения состава сегментов
Ответ: Общий результат по `ratio metric` может меняться из-за эффекта состава, даже если внутри сегментов картина другая.

Если доли сегментов отличаются между вариантами, общий `CTR` становится смесью с разными весами. Тогда возможна ситуация, когда внутри каждого сегмента B лучше, но общий `CTR` хуже, и наоборот. Это решают стратификацией, корректным взвешиванием или анализом по сегментам перед выводами.

18Вы сделали линеаризацию `ratio metric` на уровне пользователя с помощью `delta method` (дельта-метод для ratio-метрик). Какой следующий шаг чаще всего используют для сравнения вариантов?
AПрименить `t-test` к линеаризованным пользовательским значениям
BСчитать, что статистика больше не нужна, потому что метрика стала линейной
CВернуться к простому среднему пользовательских долей без весов
DБутстрапить отдельно числитель и знаменатель, как независимые выборки
Ответ: После линеаризации `ratio metric` обычно сравнивают варианты как разницу средних, например через `t-test`.

Линеаризация превращает сложное отношение в сумму вкладов по пользователям, что делает задачу похожей на сравнение средних. Дальше можно применять `t-test` (часто `Welch t-test`, если дисперсии отличаются) и построить доверительный интервал. Важно, чтобы единица анализа соответствовала единице рандомизации.

19Вы сравниваете `ARPU`, но видите редкие очень крупные покупки и сильные выбросы; в каждом варианте около 10 тысяч пользователей. Что разумнее выбрать в первую очередь?
AОбычный `t-test` по `ARPU`, потому что он всегда устойчив к выбросам
B`delta method` (дельта-метод для ratio-метрик) без диагностики, потому что он всегда лучше `bootstrap`
C`bootstrap` по пользователям с оценкой `confidence interval` для разницы
D`z-test` по доле платящих, полностью игнорируя размер покупок
Ответ: При тяжелых хвостах и выбросах в `ARPU` `bootstrap` часто предпочтительнее параметрических приближений.

Выбросы делают распределение среднего сильно несимметричным, и нормальная аппроксимация может работать плохо. `bootstrap` позволяет эмпирически оценить неопределенность и построить `confidence interval` для разницы вариантов. Дополнительно полезно смотреть на компоненты: долю платящих и средний чек среди платящих, чтобы понять источник эффекта.

20Вы тестируете новый ранжирующий алгоритм, который заметно меняет число показов на пользователя; при этом `CTR` вырос. Что правильно сделать перед выводом, что качество кликов улучшилось?
AСчитать рост `CTR` доказательством улучшения, потому что знаменатель не важен
BЗаменить метод на `t-test` по пользовательскому `CTR` без взвешивания, и интерпретация станет корректной
CСмотреть только на `p-value` по `CTR` и не анализировать компоненты метрики
DПроверить отдельно изменения кликов и показов (например клики на пользователя и показы на пользователя) и оценить, не связан ли рост `CTR` с изменением знаменателя
Ответ: Если вариант влияет на знаменатель `ratio metric`, нужно разложить метрику на компоненты (числитель/знаменатель) и проверить метрики экспозиции до вывода про «качество».

Рост `CTR` может возникнуть из-за сокращения показов при относительно меньшем сокращении кликов, и это не всегда означает лучший ранжир. Поэтому важно смотреть на клики и показы отдельно, а также на метрики на пользователя, чтобы понять механизм эффекта. Статистически это также сигнал, что наивный анализ долей может быть недостаточен, и стоит выбирать `delta method` (дельта-метод для ratio-метрик) или `bootstrap` на правильной единице.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: A/B-тесты

Дизайн эксперимента и рандомизацияОсновы A/B-тестированияПроверка гипотез и доверительные интервалыМетрики и guardrail-метрикиМножественное тестированиеQA, SRM и раскаткаРазмер выборки и мощность тестаСеквенциальное тестированиеСнижение дисперсии и CUPED