Корреляция и регрессия: вопросы для собеседования (часть 4)
Корреляция Пирсона, Спирмена, линейная регрессия, R-квадрат — инструменты для изучения связей между переменными. На собеседовании часто повторяют: «корреляция не означает причинность» — и просят привести пример. Также спрашивают про интерпретацию коэффициентов регрессии и предпосылки OLS.
Вопросы 16–20 из 20
16Когда использование `Pearson r` наиболее уместно?
AКогда две числовые переменные имеют примерно линейную связь и вы проверили влияние выбросов
BКогда хотя бы одна переменная категориальная с несколькими значениями
CКогда связь точно U-образная и вы хотите оценить нелинейность
DКогда нужно посчитать число событий за интервал времени
Ответ: `Pearson r` лучше всего работает для линейной связи между числовыми переменными.
`Pearson r` измеряет линейную ассоциацию и чувствителен к выбросам. Поэтому обычно смотрят график и проверяют, что данные не состоят из категорий, закодированных числами. Для нелинейных зависимостей нулевая `Pearson r` не означает отсутствие связи, поэтому выбор меры зависит от постановки.
17Вы построили `линейная регрессия` `churn = a + b*notifications` и получили `b > 0`. PM говорит: уведомления увеличивают отток, выключаем. Какое уточнение по допущениям самое важное перед причинным выводом?
AНикаких: коэффициент регрессии всегда означает причинность
BДостаточно пересчитать `Pearson r`, он точнее
CНужно просто увеличить выборку, чтобы `p-value` стал меньше
DНужно проверить, нет ли скрытого `confounding` (смешение факторов) и почему пользователи получают уведомления (назначение не случайно)
Ответ: Коэффициент регрессии не становится причинным без сильных допущений.
Если уведомления чаще получают пользователи, которые уже на грани ухода, то `confounding` (смешение факторов) даст положительный `b` даже без вреда от уведомлений. Регрессия в наблюдательных данных часто описывает связь, а не эффект вмешательства. Для причинного вывода нужен эксперимент, квазиэксперимент или явный контроль ключевых факторов и проверка допущений.
18Вы оценили влияние цены на продажи через `линейная регрессия` `sales = a + b*price` и получили отрицательный `b`. Но в данных есть промо: при промо цена ниже и продажи выше, а промо не включили в модель. Какой риск наиболее типичен?
AРиска нет: `Pearson r` уже учел промо автоматически
BКоэффициент `b` может быть смещен из-за `confounding` (смешение факторов), потому что промо связано и с ценой, и с продажами
CКоэффициент `b` всегда станет равен 0 при наличии промо
DЭто автоматически превращает задачу в `Poisson(λ)`
Ответ: Пропущенный фактор, связанный и с `x`, и с `y`, создает `confounding` (смешение факторов) и смещение.
Промо влияет на продажи напрямую и одновременно меняет цену, поэтому цена начинает отражать эффекты промо. Тогда `b` в `линейная регрессия` захватывает смесь причин, и интерпретация наклона становится неверной. Типичный фикс — добавить промо как переменную, либо строить дизайн, где назначение цены не связано с промо.
19У вас миллион наблюдений, `Pearson r` между двумя метриками равен 0.03, а `p-value` очень маленький. Какой вывод наиболее корректен для продукта?
AСвязь сильная, потому что `p-value` маленький
BСвязь статистически различима, но по размеру эффекта очень слабая; нужно оценивать практическую значимость
CЭто доказывает причинность, потому что данных много
DНужно перейти на `Geometric(p)`, потому что `Pearson r` не подходит
Ответ: `p-value` отвечает про обнаружимость, а не про размер эффекта.
При большом объеме данных даже очень слабая `correlation` может быть статистически значимой. Для продуктовых решений важнее оценить эффект по масштабу и влиянию на метрики, а не только по `p-value`. Типичная ловушка — принять 'значимо' за 'важно' и переоценить влияние связи.
20В целом по всем пользователям `correlation` между временем загрузки и конверсией отрицательная. Но внутри каждого типа устройства `correlation` почти нулевая. Что это скорее всего означает?
AНужно пересчитать `Pearson r`, потому что он не работает
BВремя загрузки не связано с конверсией ни при каких условиях
CЭто доказывает, что `линейная регрессия` всегда бесполезна
DЕсть `confounding` из-за смешения сегментов: тип устройства влияет и на загрузку, и на конверсию, создавая агрегированный эффект
Ответ: Агрегирование может создать видимую связь из-за `confounding` между сегментами.
Если один сегмент устройств одновременно медленнее и хуже конвертирует, агрегированные данные покажут отрицательную связь даже при отсутствии эффекта внутри сегментов. Это похоже на парадокс Симпсона и часто сигнализирует про смешение популяции. Правильный шаг — анализировать по сегментам или контролировать тип устройства в `линейная регрессия`.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram