Корреляция и регрессия: вопросы для собеседования (часть 2)
Корреляция Пирсона, Спирмена, линейная регрессия, R-квадрат — инструменты для изучения связей между переменными. На собеседовании часто повторяют: «корреляция не означает причинность» — и просят привести пример. Также спрашивают про интерпретацию коэффициентов регрессии и предпосылки OLS.
Вопросы 6–10 из 20
6Вы подозреваете, что связь между числом пушей и оттоком объясняется тем, что пуши чаще получают новички. Что лучше сделать, чтобы снизить влияние `confounding` в анализе?
AУвеличить `alpha`, чтобы быстрее получить вывод
BСтратифицировать по статусу новичок/опытный или добавить этот фактор в `линейная регрессия`
CЗаменить `Pearson r` на `Spearman` и не учитывать сегменты
DСчитать только пользователей с 0 пушей и сравнить их с остальными
Ответ: Контроль `confounding` достигается сегментацией или добавлением факторов в модель.
Если статус пользователя влияет и на получение пушей, и на отток, он искажает оценку связи. Разбиение на сегменты или добавление переменной в `линейная регрессия` делает сравнение более сопоставимым. Это не гарантирует причинность, но снижает риск неправильной интерпретации из-за явного `confounding`.
7Модель `линейная регрессия` обучена на скидках от 0 до 30%. PM просит предсказать конверсию при скидке 80%. Какой ответ наиболее корректен?
AМожно смело предсказывать, потому что регрессия линейная
BНужно только посчитать `Pearson r`, тогда предсказание будет точным
CДостаточно увеличить число наблюдений в диапазоне 0–30%, и можно экстраполировать на 80%
DЭто экстраполяция вне диапазона данных: предсказание может быть неверным, лучше собрать данные в этом диапазоне или изменить дизайн
Ответ: Экстраполяция вне диапазона данных — частая ловушка в регрессии.
Линейная модель может хорошо описывать связь в наблюдаемом диапазоне и при этом давать абсурдные значения за его пределами. При скидке 80% могут включиться другие механизмы, и линейность нарушится. Поэтому корректнее либо собрать данные в нужном диапазоне, либо заранее ограничить область применения модели.
8Вы видите положительную `correlation` между продажами мороженого и количеством утоплений по дням. Это типичный пример спуриозной (`spurious`) связи. Что наиболее вероятно объясняет наблюдение?
AМороженое вызывает утопления
BЕсть `confounding` фактор (например, температура), который влияет и на мороженое, и на утопления
CОшибка в `Pearson r`, он не работает по дням
DЭто невозможно, потому что `correlation` всегда означает причинность
Ответ: `spurious` связь часто возникает из-за общего фактора `confounding`.
Температура повышает и спрос на мороженое, и вероятность купания, что увеличивает утопления. Тогда две переменные выглядят связанными, хотя прямой причинной связи нет. Такой пример помогает помнить, что `correlation` без контекста может быть обманчивой.
9В `линейной регрессии` вида `y = a + b*x` что означает интерсепт `a`?
AОжидаемое значение `y` при `x = 0`, но оно может быть вне диапазона данных и тогда не иметь прямого смысла
BКоэффициент `correlation` между `x` и `y`, показывающий направление связи
CОбщее число наблюдений, использованных при обучении модели
DВероятность наступления целевого события `success`
Ответ: Интерсепт — это прогноз `y` при `x = 0`.
Интерсепт полезен как часть модели, но интерпретировать его нужно осторожно. Если `x = 0` не встречается в данных (вне диапазона данных), смысл `a` может быть условным. Частая ловушка — делать продуктовые выводы из интерсепта без проверки диапазона `x`.
10Вы нашли `correlation` между количеством показов рекламы и выручкой. Но вы знаете, что в праздники и показы, и выручка растут. Как лучше описать риск интерпретации?
AЭто означает, что реклама не работает
BЭто доказывает, что реклама вызывает рост выручки
CВозможен `confounding` из-за сезонности, поэтому простая `correlation` не равна эффекту рекламы
DНужно заменить `Pearson r` на `Poisson(λ)`
Ответ: `confounding` делает корреляцию плохой оценкой эффекта.
Сезонность меняет и спрос, и маркетинговую активность, поэтому группы дней становятся несопоставимыми. В результате корреляция может отражать календарные эффекты, а не влияние рекламы. Чтобы приблизиться к эффекту, нужно контролировать сезонность, строить сравнимые группы или использовать эксперимент.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram