Question 1

В каком случае применение дельта-метода для метрик-отношений наиболее рискованно и может дать неверную оценку неопределённости?

Accepted Answer

Дельта-метод плохо переносит нестабильный или близкий к нулю знаменатель и сильную нелинейность отношения. При малых знаменателях небольшое изменение числителя сильно меняет отношение, и линейное приближение перестаёт описывать реальность. Похожая проблема возникает при тяжёлых хвостах и выбросах, что часто встречается в `ARPU`. В таких условиях полезнее применять `bootstrap` или предварительно менять постановку метрики и единицу агрегации. Большие выборки и устойчивая фильтрация, напротив, делают дельта-метод более надёжным.

Question 2

В варианте B стало больше трафика из сегмента с низким базовым CTR, хотя внутри каждого сегмента B чуть улучшает кликабельность. Что может произойти, если сравнить общий CTR без учёта сегментов?

Accepted Answer

Общий результат по метрике-отношению может меняться из-за эффекта состава, даже если внутри сегментов картина другая. Если доли сегментов отличаются между вариантами, общий CTR превращается в смесь с разными весами. Тогда возможна ситуация, когда внутри каждого сегмента B лучше, но общий CTR хуже, и наоборот — это парадокс Симпсона. Решают стратификацией, корректным взвешиванием или анализом по сегментам перед общими выводами.

Question 3

Вы сделали линеаризацию `ratio metric` на уровне пользователя с помощью `delta method` (дельта-метод для ratio-метрик). Какой следующий шаг чаще всего используют для сравнения вариантов?

Accepted Answer

После линеаризации `ratio metric` обычно сравнивают варианты как разницу средних, например через `t-test`. Линеаризация превращает сложное отношение в сумму вкладов по пользователям, что делает задачу похожей на сравнение средних. Дальше можно применять `t-test` (часто `Welch t-test`, если дисперсии отличаются) и построить доверительный интервал. Важно, чтобы единица анализа соответствовала единице рандомизации.

Question 4

Вы сравниваете ARPU, но видите редкие очень крупные покупки и сильные выбросы; в каждом варианте около 10 тысяч пользователей. Что разумнее выбрать в первую очередь?

Accepted Answer

При тяжёлых хвостах и выбросах в ARPU бутстрэп часто предпочтительнее параметрических приближений. Выбросы делают распределение среднего сильно несимметричным, и нормальная аппроксимация может работать плохо. Бутстрэп позволяет эмпирически оценить неопределённость и построить доверительный интервал для разницы вариантов, не опираясь на нормальность. Дельта-метод полезен, но без диагностики его нельзя считать заведомо лучше, а `t-test` без проверки хвостов рискует дать заниженный `p-value`. Дополнительно полезно смотреть на компоненты: долю платящих и средний чек среди платящих, чтобы понять источник эффекта.

Question 5

Вы тестируете новый ранжирующий алгоритм, который заметно меняет число показов на пользователя; при этом `CTR` вырос. Что правильно сделать перед выводом, что качество кликов улучшилось?

Accepted Answer

Если вариант влияет на знаменатель доли, нужно разложить метрику на числитель и знаменатель и проверить метрики экспозиции до вывода о «качестве». Рост `CTR` может возникнуть из-за сокращения показов при относительно меньшем сокращении кликов, и это не всегда означает лучший ранжир. Поэтому важно смотреть на клики и показы отдельно, а также на метрики на пользователя, чтобы понять механизм эффекта. Статистически это также сигнал, что наивный анализ долей может быть недостаточен, и стоит выбирать дельта-метод для долей или `bootstrap` на правильной единице.

Ratio-метрики и бутстреп: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты