Question 1

У вас есть средняя длительность сессии по дням и число сессий по дням. Как корректно получить среднюю длительность сессии за неделю, чтобы не попасть в ловушку «среднего средних»?

Accepted Answer

Когда вы агрегируете средние между днями, важно учитывать уровень агрегации и использовать веса, иначе получаете «среднее средних». Дневная средняя считается на уровне сессии, поэтому правильный общий показатель должен взвешивать дни по числу сессий. Иначе день с малым трафиком будет влиять так же, как день с большим, что и есть ошибка «среднего средних». Эквивалентный способ — посчитать суммарное время всех сессий и разделить на суммарное число сессий. Взвешивание по числу дней недели смысла не несёт (все веса равны), а максимум по дню — это уже совсем другая характеристика.

Question 2

Вы хотите метрику «какая доля показов заканчивается кликом». У вас по каждому пользователю есть клики и показы. Какой расчёт соответствует нужному уровню агрегации?

Accepted Answer

Если цель — доля кликов на показ, правильный уровень агрегации — показ, а объединение по пользователям требует взвешенного среднего с весами равными показам. Среднее пользовательских CTR без весов даёт одинаковый вклад пользователям с одним показом и с тысячью показов. Это создаёт смещение и превращает метрику в «средний пользовательский CTR», что может не совпадать с продуктовым вопросом. Для общей доли кликов нужно суммировать клики и показы и взять отношение, что эквивалентно взвешенному среднему с весами равными показам. Медиана и деление на число пользователей отвечают на другие вопросы и тоже искажают долю кликов на показ.

Question 3

У вас есть удержание D7 по недельным когортам и размер каждой когорты. Как корректно получить удержание D7 за месяц на уровне агрегации «пользователь»?

Accepted Answer

Общая метрика удержания должна быть взвешенным средним когортных значений с весами, равными размеру когорты, на выбранном уровне агрегации. Если просто усреднить когортные проценты, маленькая когорта будет влиять так же, как большая — это «среднее средних». Удержание обычно задаётся на уровне пользователя, поэтому весом является число пользователей в когорте. Эквивалентно можно сложить вернувшихся пользователей по всем когортам и разделить на общий размер когорт — это и есть взвешенное среднее.

Question 4

В A/B тесте конверсия в iOS и в Android выше у варианта B, но общая конверсия по всем пользователям ниже у B. Как это корректнее всего назвать?

Accepted Answer

Если в каждом сегменте B лучше, но в целом хуже, это классический парадокс Симпсона, возникающий из-за сдвига состава аудитории и разных весов сегментов. Общий результат — это взвешенное среднее сегментных метрик, и при изменении долей сегментов итог может перевернуть знак. Такое часто случается, когда в одном варианте больше трафика из сегмента с низкой базовой конверсией. Решение — сравнить сегменты отдельно или стандартизировать общий показатель с фиксированными весами.

Question 5

В A/B тесте вариант B лучше по конверсии внутри каждого региона, но общая конверсия по всем регионам хуже у B. Какое объяснение наиболее правдоподобно?

Accepted Answer

Когда общий эффект противоречит эффектам в каждом сегменте, это типичный парадокс Симпсона, связанный со сдвигом состава. Такое возможно, если доли регионов в группах A и B разные и веса сегментов изменились. Тогда общий результат — это взвешенное среднее сегментов с другими весами, и знак эффекта может перевернуться. Первый шаг: убедиться, что сравнение идёт на одном уровне агрегации и нет перекоса в составе. Затем интерпретировать эффект по сегментам или стандартизировать с фиксированными весами.

Взвешенные средние и смешение: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Логика