Взвешенные средние и смешение: вопросы для собеседования (часть 4)

Взвешенное среднее, Simpson's paradox, некорректное усреднение средних — задачи, где интуиция обманывает. На собеседовании дают два сегмента, в каждом из которых новая версия лучше старой, но в сумме — хуже. Кандидат должен объяснить парадокс и предложить корректный способ сравнения.

Булева логика и фильтрыКачество данных и инвариантыВоронки и когортные рассужденияJOIN и кардинальностьПостановка задачиДоли и процентыSanity-check и оценкаСегментация и конфаундингТеория множеств и дедупликация

Вопросы 1620 из 20

16У вас есть средняя длительность сессии по дням и число сессий по дням. Как корректно получить среднюю длительность сессии за неделю, чтобы не попасть в `среднее средних`?
AУсреднить дневные средние поровну, потому что каждый день одинаково важен
BСделать `взвешенное среднее` дневных средних с `веса` = число сессий в день
CСделать `взвешенное среднее` дневных средних с `веса` = число дней недели
DВзять максимальное дневное значение как показатель недели
Ответ: Когда вы агрегируете средние между днями, важно учитывать `уровень агрегации` и использовать `веса`, иначе получаете `среднее средних`.

Дневная средняя обычно считается на уровне сессии, поэтому правильный общий показатель должен взвешивать дни по числу сессий. Иначе день с малым трафиком будет влиять так же, как день с большим, что и есть ошибка `среднее средних`. Эквивалентный способ — посчитать суммарное время всех сессий и разделить на суммарное число сессий, что соответствует `взвешенное среднее`.

17Вы хотите метрику «какая доля показов заканчивается кликом». У вас по каждому пользователю есть клики и показы. Какой расчёт соответствует нужному `уровень агрегации`?
AПосчитать простое среднее пользовательских CTR без `веса`
BВзять медиану пользовательских CTR
CПосчитать общий CTR как (сумма кликов)/(сумма показов), что эквивалентно `взвешенное среднее` пользовательских CTR с `веса` = показы
DПосчитать (сумма кликов)/(число пользователей), потому что это «на пользователя»
Ответ: Если цель — доля кликов на показ, правильный `уровень агрегации` — показ, а объединение по пользователям требует `взвешенное среднее` с `веса` = показы.

Среднее пользовательских CTR без весов даёт одинаковый вклад пользователям с 1 показом и с большим числом показов. Это создаёт смещение и превращает метрику в «средний пользовательский CTR», что может не совпадать с продуктовым вопросом. Для общей доли кликов нужно суммировать клики и показы и взять отношение, что эквивалентно `взвешенное среднее` с корректными `веса`.

18У вас есть D7 ретеншн по недельным когортам и размер каждой когорты. Как корректно получить D7 ретеншн за месяц на `уровень агрегации` = пользователь?
AВзять простое среднее ретеншнов по когортам
BПосчитать `взвешенное среднее` ретеншнов по когортам с `веса` = размер когорты
CВзять ретеншн самой большой когорты как «главный»
DСложить ретеншны по когортам, чтобы получить общий ретеншн
Ответ: Общая ретеншн-метрика должна быть `взвешенное среднее` когортных значений с `веса` = размер когорты на выбранном `уровень агрегации`.

Если просто усреднить когортные проценты, маленькая когорта будет влиять так же, как большая — это `среднее средних`. Ретеншн обычно задан на `уровень агрегации` пользователя, поэтому весом является число пользователей в когорте. Эквивалентно можно сложить вернувшихся пользователей по всем когортам и разделить на общий размер когорт, что соответствует `взвешенное среднее`.

19В A/B тесте конверсия в iOS и в Android выше у варианта B, но общая конверсия по всем пользователям ниже у B. Как это корректнее всего назвать?
AЭто просто `сдвиг микса`, но без риска переворота вывода
BЭто `парадокс Симпсона` из-за `сдвиг микса` и разных `веса` по платформам
CЭто означает, что сегментный анализ всегда неверен
DЭто невозможно при корректных данных, значит можно игнорировать результат
Ответ: Если в каждом сегменте B лучше, но в целом хуже, это классический `парадокс Симпсона`, возникающий из-за `сдвиг микса` и разных `веса`.

Общий результат — это `взвешенное среднее` сегментных метрик, и при изменении долей сегментов итог может перевернуть знак. Такое часто случается, когда в одном варианте больше трафика из сегмента с низкой базовой конверсией. Решение — сравнить сегменты отдельно и/или стандартизировать общий показатель с фиксированными `веса`.

20В A/B тесте вариант B лучше по конверсии внутри каждого региона, но общая конверсия по всем регионам хуже в B. Какое объяснение наиболее правдоподобно?
AЭто `парадокс Симпсона`: из-за `сдвиг микса` общий результат как `взвешенное среднее` меняет знак при других `веса`
BЭто означает, что `взвешенное среднее` всегда неверен, поэтому надо брать простое среднее
CСегменты нужно игнорировать: решение принимается только по общей метрике
DЭто обязательно означает ошибку логирования только в одном регионе, остальное можно не проверять
Ответ: Когда общий эффект противоречит эффектам в каждом сегменте, это типичный `парадокс Симпсона`, связанный с `сдвиг микса`.

Такое возможно, если доли регионов в вариантах разные и веса сегментов изменились. Тогда общий результат становится `взвешенное среднее` сегментов с другими `веса`, и знак может перевернуться. Первый шаг — убедиться, что сравнение идёт на одном `уровень агрегации` и нет перекоса в составе. Затем интерпретировать эффект по сегментам или стандартизировать с фиксированными `веса`.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Логика

Булева логика и фильтрыКачество данных и инвариантыВоронки и когортные рассужденияJOIN и кардинальностьПостановка задачиДоли и процентыSanity-check и оценкаСегментация и конфаундингТеория множеств и дедупликация