Вопросы по теме «Сегментация и конфаундинг»
Конфаундинг — когда скрытая переменная создаёт ложную связь между метриками. Парадокс Симпсона, omitted variable bias, необходимость контроля за ковариатами — темы, которые проверяют аналитическое мышление. На собеседовании дают пример, где тренд в данных исчезает или разворачивается при разбивке на сегменты.
Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.
Вопросы 1–5 из 20
1Вы сравниваете `conversion rate` между `channel` = `search` и `channel` = `social`. В `channel` = `search` заметно больше пользователей из `region` с высокой платежеспособностью. Какой наиболее вероятный `confounder` и что логично использовать как `control variable`?
A`device` пользователя
B`region` пользователя
C`hour-of-day` визита
D`screen size` устройства
Ответ: Если разные группы трафика имеют разный состав по `region`, то `region` становится вероятным `confounder`.
При сравнении `channel` аудитория может отличаться по платежеспособности и доступности ассортимента. Если `region` связан и с выбором `channel`, и с покупкой, он искажает сравнение. Корректнее сделать `stratification` по `region` или сравнивать `channel` внутри одинаковых `region` как `like-for-like`.
2После запуска новой версии приложения общий `conversion rate` упал. При этом выросла доля трафика на `android` (`platform` = `android`), а у `android` исторически ниже `base rate`. Какое объяснение наиболее правдоподобно без дополнительных данных?
AСработал `mix shift`: изменились веса `segment` по `platform`, поэтому общий `rate` мог упасть
BНовая версия точно ухудшила опыт для каждого `segment`
CЭто невозможно при `randomization`, значит метрика посчитана неправильно
DЗначит, в `control variable` всегда должен быть только `device`
Ответ: Падение общего результата может быть следствием `mix shift`, а не ухудшения внутри каждого `segment`.
Если доля `segment` с более низким `base rate` выросла, общий `rate` может снизиться даже при стабильности внутри сегментов. Это частая ситуация, когда меняется состав по `platform` или источникам трафика. Чтобы проверить, нужно сравнить метрику `like-for-like`, например посчитать `rate` отдельно по `segment` и посмотреть изменения внутри.
3Вы хотите сравнить `conversion rate` между `platform` = `ios` и `platform` = `android`, но подозреваете, что в `ios` больше трафика из `channel` = `email`. Какой способ контроля наиболее корректен?
AЗафиксировать `control variable` `channel` и сравнивать `platform` внутри каждого `channel` через `stratification`
BСравнить только общий `conversion rate`, потому что `mix shift` всегда неважен
CВыбрать один `segment` с лучшей метрикой и объявить его основным
DУвеличить трафик на `ios`, чтобы `android` догнал
Ответ: Чтобы сравнение было честным, нужно контролировать `confounder` через `control variable` и `stratification`.
Если `channel` влияет на вероятность покупки и распределён по `platform` по-разному, он искажает сравнение. Понятный подход — сравнить `ios` и `android` внутри одинакового `channel` как `like-for-like`. Затем можно агрегировать результаты, отдельно объяснив, какая часть разницы связана с `mix shift`.
4После запуска нового `channel` = `paid` средняя длительность сессии упала. При этом внутри `channel` = `organic` и внутри `channel` = `paid` длительность почти не изменилась. Какое объяснение наиболее логичное?
AЭто значит, что продукт стал хуже для каждого `segment`
BЭто обязательно ошибка трекинга, потому что `mix shift` невозможен
CСкорее всего, произошёл `mix shift`: доля `channel` paid выросла, и общий показатель сместился из-за других весов `segment`
DЭто доказывает, что нужно убрать `segment` анализ навсегда
Ответ: Если внутри `segment` метрика стабильна, а общий уровень меняется, частая причина — `mix shift`.
Общий показатель является смесью сегментных значений с весами, равными долям сегментов. Когда доли меняются, общий результат может измениться даже без изменений внутри сегментов. Поэтому важно мониторить состав аудитории и смотреть метрики `like-for-like` по `segment`.
5Маркетинг сравнивает конверсию (`conversion rate`) двух лендингов. Вариант A чаще показывали пользователям из `region` с высоким спросом, вариант B — из других `region`. Как корректнее всего контролировать этот фактор в анализе?
AСравнить общий `conversion rate` по вариантам и считать результат честным
BУдалить из данных все `region`, чтобы не мешали
CСравнить только `segment` лучшей `region` и экстраполировать на всех
DСделать `stratification` по `region` и сравнить варианты `like-for-like` внутри `region`, а затем агрегировать
Ответ: Если варианты показаны разной аудитории, нужен контроль `confounder` через `stratification`.
Разные `region` часто имеют разный `base rate`, поэтому сравнение без контроля будет искажено. `Stratification` позволяет сравнить варианты внутри одинаковой `region` и отделить влияние состава от влияния лендинга. После этого можно агрегировать вывод, сохраняя прозрачность по сегментам.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram