Сегментация и конфаундинг: вопросы для собеседования (часть 2)

Конфаундинг — когда скрытая переменная создаёт ложную связь между метриками. Парадокс Симпсона, omitted variable bias, необходимость контроля за ковариатами — темы, которые проверяют аналитическое мышление. На собеседовании дают пример, где тренд в данных исчезает или разворачивается при разбивке на сегменты.

Булева логика и фильтрыКачество данных и инвариантыВоронки и когортные рассужденияJOIN и кардинальностьПостановка задачиДоли и процентыSanity-check и оценкаТеория множеств и дедупликацияВзвешенные средние и смешение

Вопросы 610 из 20

6Что лучше всего описывает `confounder` при сравнении двух сегментов по метрике?
AЛюбая случайная ошибка измерения в данных
BФактор, который связан и с принадлежностью к `segment`, и с метрикой, поэтому искажает сравнение
CЛюбая метрика, выраженная как `ratio metric`
DЛюбое отличие в размере выборки между `segment`
Ответ: `Confounder` искажает сравнение, потому что влияет и на формирование `segment`, и на результат.

Например, `region` может влиять на покупку и одновременно быть неравномерно распределённым между `segment`. Тогда разница метрики между сегментами может отражать `region`, а не реальный эффект интересующего фактора. Чтобы уменьшить искажение, используют `control variable` и `stratification`.

7Вы хотите понять, отличается ли `conversion rate` между `platform` `ios` и `platform` `android`. При этом `android` трафик больше из `region` с низкой покупательной способностью. Какой подход наиболее корректен?
AСравнить общий `conversion rate` по `platform` и сделать вывод без поправок
BИспользовать `region` как `control variable`: сделать `stratification` по `region` и сравнить `ios` и `android` `like-for-like`
CВыбрать только `users` из `android`, потому что их больше
DПеревести часть `android` `users` в `ios`, чтобы доли сравнялись
Ответ: Для честного сравнения `platform` нужно контролировать `confounder` `region` через `stratification`.

Если `region` влияет на покупки и распределён неравномерно между `platform`, то он искажает разницу метрик. `Stratification` позволяет сравнить `ios` и `android` внутри одинаковых `region`, а затем собрать общий вывод. Это снижает риск перепутать эффект `platform` с эффектом состава аудитории.

8Релиз новой посадочной страницы был в пятницу, а сравнение сделали между субботой и четвергом и увидели падение `conversion rate`. Какой вероятный `confounder` делает сравнение нечестным?
A`day-of-week` как `confounder`: поведение в выходные и будни различается
B`selection bias` из-за `randomization`
C`mix shift` из-за того, что `denominator` равен нулю
D`stratification` уже решает проблему, даже если её не делали
Ответ: Разные дни недели могут быть сильным `confounder` для продуктовых метрик.

Даже без изменений продукта метрики часто отличаются между буднями и выходными. Если релиз совпал со сменой `day-of-week`, вы не отделите эффект релиза от сезонности внутри недели. Корректнее сравнивать `like-for-like` по одинаковым дням или делать `stratification` по `day-of-week`.

9Маркетолог утверждает, что кампания B лучше, потому что в B выше `conversion rate`. Вы видите, что в B больше `segment` `device` `desktop`, а в `desktop` обычно выше `base rate` покупки. Какой ответ наиболее корректен на интервью?
AСказать, что это может быть `confounder` и `сдвиг микса`, поэтому нужно сравнить кампании `like-for-like` по `device` как `control variable` или сделать `stratification`
BСогласиться, потому что `conversion rate` всегда сравнима независимо от состава
CСказать, что `selection bias` невозможен в маркетинге, поэтому вывод точный
DПредложить убрать `segment` и смотреть только общий `revenue`
Ответ: Если состав по `device` отличается, то сравнение `conversion rate` без контроля может быть искажено `сдвиг микса` и `confounder`.

Разные `device` часто имеют разные `base rate` и поведение `users`. Если кампания приводит несопоставимую аудиторию, общий `rate` отражает смесь сегментов, а не качество кампании. Поэтому правильно зафиксировать `control variable` `device`, сравнить `like-for-like` или провести `stratification`, а затем сделать вывод о реальной разнице.

10Новая функция включается кнопкой, и анализ показал, что у включивших выше `retention` и `conversion rate`. Какая основная проблема такого вывода?
AЭто `mix shift` по `region`, который всегда повышает метрики
BЭто влияние `confounder` только из-за сезона
CЭто `selection bias` из-за `self-selection`: включили чаще более мотивированные `users`
DЭто значит, что нужно убрать `segment` и смотреть только общий `rate`
Ответ: При `selection bias` пользователи сами выбирают попадание в группу, и сравнение перестаёт быть честным.

Те, кто включает функцию, обычно более вовлечены и уже имеют более высокий `base rate`. Поэтому разница метрик может отражать не эффект функции, а различия аудитории. Чтобы оценить эффект, нужно сравнение без `self-selection`, например через `randomization` или через корректный `control variable` и `stratification`.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Логика

Булева логика и фильтрыКачество данных и инвариантыВоронки и когортные рассужденияJOIN и кардинальностьПостановка задачиДоли и процентыSanity-check и оценкаТеория множеств и дедупликацияВзвешенные средние и смешение