Question 1

Почему анализ доли вида `CTR` часто нельзя делать как «обычный средний показатель» без оговорок?

Accepted Answer

Доля `CTR` зависит от вариативности и возможного изменения знаменателя, что влияет и на оценку эффекта, и на её неопределённость. Если вариант влияет на количество показов, то `CTR` может вырасти даже при неизменных кликах, просто из-за снижения знаменателя. Кроме того, у пользователей разные знаменатели, и наивное усреднение долей может исказить вклад наблюдений. Поэтому часто применяют дельта-метод для долей или `bootstrap`, чтобы корректно оценить дисперсию и доверительный интервал. Утверждения о нормальности `CTR` по построению или о независимости от показов на практике неверны.

Question 2

Когда `delta method` (дельта-метод для ratio-метрик) обычно даёт приемлемое приближение для разницы в `CTR`?

Accepted Answer

`delta method` лучше работает при больших выборках и при отсутствии нестабильности знаменателя у заметной доли наблюдений. Линейное приближение становится точнее, когда выполнена асимптотика и нет «взрывов» отношения из-за малых знаменателей. Если у многих наблюдений знаменатель нулевой или очень маленький, ratio-метрика становится крайне шумной. Тогда приближение для стандартной ошибки может быть плохим, и стоит рассмотреть `bootstrap` или иной подход к оценке дисперсии.

Question 3

В A/B тесте вы сравниваете ARPU: большинство пользователей дают 0, но иногда бывают очень крупные покупки; выборка умеренная. Какой подход чаще всего более надёжен для p-value и доверительного интервала?

Accepted Answer

Для сильно скошенных метрик типа ARPU `bootstrap` часто даёт более устойчивую оценку неопределённости, чем линейные приближения. При тяжёлых хвостах среднее нестабильно, а асимптотическая нормальность наступает медленно. `bootstrap` учитывает реальную форму распределения и влияние редких крупных чеков, если ресэмплировать пользователей как единицы рандомизации. Дельта-метод и `z-test` для долей опираются на предположения, которые при таких данных могут не выполняться.

Question 4

Эксперимент рандомизируется по пользователям, а метрика `CTR` считается как клики/показы. Как корректнее всего настроить `bootstrap` для оценки разницы вариантов?

Accepted Answer

В `bootstrap` нужно ресэмплировать на уровне единицы рандомизации и пересчитывать отношение метрики как отношение сумм. Если рандомизация по пользователю, внутри пользователя наблюдения зависимы и это нужно сохранять. Поэтому в каждом бутстрап-репликате выбирают пользователей с возвращением, суммируют клики и показы по выбранным пользователям и считают `CTR`. Так получают эмпирическое распределение эффекта без жёстких предположений о форме распределения.

Question 5

Какая ошибка в `bootstrap` чаще всего приводит к некорректной оценке дисперсии для `CTR`?

Accepted Answer

Нельзя бутстрапить числитель и знаменатель отдельно, если они статистически зависимы — это занижает дисперсию. Клики и показы обычно связаны: больше показов часто означает больше возможностей для кликов. Если бутстрапить их независимо, вы разрушаете эту зависимость и можете занизить дисперсию эффекта. Правильнее ресэмплировать исходные наблюдения на уровне единицы рандомизации (пользователя) и пересчитывать ratio-метрику целиком на каждой реплике. Фиксация `seed` важна для воспроизводимости, но к смещению дисперсии она не приводит.

Ratio-метрики и бутстреп: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты