Вопросы по теме «Взвешенные средние и смешение»

Взвешенное среднее, Simpson's paradox, некорректное усреднение средних — задачи, где интуиция обманывает. На собеседовании дают два сегмента, в каждом из которых новая версия лучше старой, но в сумме — хуже. Кандидат должен объяснить парадокс и предложить корректный способ сравнения.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Булева логика и фильтрыКачество данных и инвариантыВоронки и когортные рассужденияJOIN и кардинальностьПостановка задачиДоли и процентыSanity-check и оценкаСегментация и конфаундингТеория множеств и дедупликация

Вопросы 15 из 20

1В отчёте по регионам у вас есть конверсия (покупки/визиты) и число визитов по каждому региону. Как корректно получить общую конверсию на уровне `уровень агрегации` = визит?
AПосчитать (сумма покупок)/(сумма визитов) — это `взвешенное среднее` с `веса` = визиты
BВзять простое среднее региональных конверсий (ошибка `среднее средних`)
CВзять конверсию региона с самым большим трафиком
DВзять медиану региональных конверсий
Ответ: Общая метрика должна соответствовать выбранному `уровень агрегации` и обычно считается как `взвешенное среднее` с правильными `веса`.

Если вы хотите конверсию по всем визитам, нужно суммировать покупки и визиты по регионам и только затем делить. Простое среднее конверсий регионов — это `среднее средних`, оно переоценивает маленькие сегменты. Веса для такого объединения — это `веса`, равные числу визитов.

2Вам дали ARPU отдельно для iOS и Android, а также количество пользователей в каждой платформе. Как корректно получить общий ARPU по продукту?
AВзять простое среднее ARPU iOS и Android
BВзвесить ARPU по выручке платформ
CПосчитать `взвешенное среднее` платформенных ARPU с `веса` = число пользователей на платформе
DСложить ARPU iOS и Android, потому что это «две части» продукта
Ответ: Чтобы объединить сегментные значения, используйте `взвешенное среднее` с `веса`, соответствующими знаменателю метрики.

ARPU — это выручка на пользователя, поэтому весом должна быть численность пользователей в сегменте. Простое среднее двух платформ будет завышать вклад маленькой платформы. Правильный `уровень агрегации` — пользователь, поэтому можно считать общую выручку и делить на общее число пользователей или эквивалентно взвешивать ARPU по `веса` = пользователи.

3Общая конверсия за месяц выросла, но в каждом канале (органика, платный, реферальный) конверсия почти не изменилась; при этом доли каналов заметно сместились. Какой термин лучше всего описывает ситуацию?
A`парадокс Симпсона`
B`среднее средних`
CОшибка выбора `уровень агрегации`
D`сдвиг микса`
Ответ: Если итоговая метрика меняется из-за изменения состава сегментов, это `сдвиг микса`.

При `сдвиг микса` поведение внутри сегментов может быть стабильным, но итоговая цифра меняется, потому что изменились доли сегментов. Это часто видно, когда растёт доля канала или платформы с высокой базовой метрикой. Чтобы корректно сравнивать периоды, фиксируют `веса` или анализируют метрику на нужном `уровень агрегации` в разрезе.

4В каком случае простое среднее по магазинам без `веса` является корректной постановкой KPI?
AКогда вы хотите общий средний чек по всем заказам сети
BКогда вы хотите общую долю заказов в срок по всем заказам сети
CКогда вы хотите общую конверсию по всем визитам
DКогда вы хотите оценить «типичный магазин» на `уровень агрегации` магазина, где каждый магазин должен иметь равный вклад
Ответ: Простое среднее подходит, когда целевой `уровень агрегации` — объект (например, магазин) и каждый объект должен иметь равный вклад без `веса`.

Если ваша цель — оценить «типичный магазин», вы сознательно выбираете `уровень агрегации` магазина, а не заказа или пользователя. Тогда маленький и большой магазин должны влиять одинаково, и простое среднее по магазинам корректно. Но если вопрос про «в среднем по заказам/пользователям», нужен `взвешенное среднее` с соответствующими `веса`.

5Конверсия по неделям упала, но в разрезе каналов конверсия почти не изменилась; при этом доля платного трафика выросла, а органики — упала. Как правильнее всего это интерпретировать?
AЭто прямое ухудшение продукта во всех каналах
BЭто ошибка `среднее средних` и её нельзя анализировать
CНужно выкинуть платный канал и пересчитать метрику только по органике
DЭто эффект `сдвиг микса`; нужно анализировать разрезы и/или сравнивать периоды с одинаковыми `веса`
Ответ: Если внутри каналов метрика стабильна, а общая меняется, это обычно `сдвиг микса`, а не изменение качества в каждом сегменте.

Падение общей конверсии может быть вызвано ростом доли канала с низкой базовой конверсией, даже если внутри каналов ничего не ухудшилось. Чтобы корректно интерпретировать, разделите эффект на изменение внутри сегментов и изменение состава (`сдвиг микса`). Для сравнения периодов можно фиксировать `веса` каналов или анализировать метрику на выбранном `уровень агрегации` по каждому каналу отдельно.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Логика

Булева логика и фильтрыКачество данных и инвариантыВоронки и когортные рассужденияJOIN и кардинальностьПостановка задачиДоли и процентыSanity-check и оценкаСегментация и конфаундингТеория множеств и дедупликация