Корреляция и регрессия: вопросы для собеседования (часть 3)

Корреляция Пирсона, Спирмена, линейная регрессия, R-квадрат — инструменты для изучения связей между переменными. На собеседовании часто повторяют: «корреляция не означает причинность» — и просят привести пример. Также спрашивают про интерпретацию коэффициентов регрессии и предпосылки OLS.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 1115 из 20

11В простой `линейная регрессия` с одним признаком `x` квадрат `Pearson r` (то есть `r^2`) чаще всего интерпретируют как…
AДолю дисперсии `y`, объясненную линейной связью с `x` в этой модели
BВероятность причинного эффекта `x` на `y`
CСреднее значение `y`
DЧисло `trial` до `success`
Ответ: `r^2` в простой регрессии связан с долей объясненной вариативности.

Если `r^2` равно 0.25, это означает, что линейная модель с `x` объясняет около четверти вариации `y` относительно среднего. Это не говорит о причинности и не гарантирует хороших предсказаний для каждого наблюдения. Частая ошибка — читать `r^2` как долю 'причины' или как точность модели без проверки остатков.

12Конверсия растет со скидкой до порога, а затем почти не меняется. При этом `Pearson r` между скидкой и конверсией близок к 0. Какой вывод корректен?
AЭто доказывает отсутствие любой связи
BЭто означает, что данных мало и нужно больше
CЭто означает, что `correlation` всегда бесполезна для продуктовых метрик
DНулевая `correlation` по `Pearson r` возможна при сильной нелинейной связи, потому что `Pearson r` измеряет линейность
Ответ: Нулевая `Pearson r` не исключает нелинейную связь.

`Pearson r` хорошо ловит именно линейные зависимости. Если связь насыщается или имеет порог, линейная мера может давать значение около нуля. В таких случаях стоит визуализировать данные или использовать модели, которые учитывают форму зависимости, а не только линейность.

13Вы посчитали `correlation` между количеством новых пользователей и количеством тикетов в саппорт и получили 0.9, потому что оба ряда росли каждый месяц. Какое действие лучше всего снижает риск `spurious` вывода?
AЗаменить `Pearson r` на `Binomial(n,p)`
BСчитать `correlation` только по последнему месяцу
CУчитывать тренд: сравнить изменения (например, разности по месяцам) или контролировать время, чтобы убрать общий рост
DИгнорировать результат: 0.9 всегда означает сильную причинность
Ответ: Общий тренд может создавать `spurious` корреляции во временных рядах.

Если две метрики растут со временем по внешним причинам, они будут коррелировать даже без реальной связи. Убирая тренд или контролируя время, вы проверяете, остаются ли совместные колебания поверх общего роста. Частая ошибка — интерпретировать трендовую корреляцию как прямое влияние одной метрики на другую.

14У вас 100 наблюдений, где почти нет связи между `x` и `y`, но есть одна точка с очень большим `x` и `y`. После добавления этой точки `Pearson r` стал 0.8. Что это чаще всего означает?
AЗначит, связь стала причинной
BЗначит, `линейная регрессия` точно описывает процесс
C`Pearson r` чувствителен к выбросам, и один выброс мог исказить оценку `correlation`
DЗначит, данные стали бинарными
Ответ: Один выброс может сильно изменить `Pearson r`.

`Pearson r` зависит от ковариации и может резко вырасти из-за одной экстремальной точки. Поэтому полезно смотреть scatter plot и проверять устойчивость результата без выбросов. Типичная ловушка — принять выброс за закономерность и сделать сильный вывод про связь.

15Какое утверждение корректно сравнивает `correlation` и `линейная регрессия`?
A`correlation` всегда больше по модулю, чем коэффициент регрессии
B`линейная регрессия` симметрична: поменяйте `x` и `y` местами, получите тот же результат
C`correlation` симметрична по `x` и `y`, а `линейная регрессия` зависит от того, что вы предсказываете как `y` и что берете как `x`
D`correlation` применима только к бинарным данным
Ответ: `correlation` симметрична, а регрессия задает направление предсказания.

Корреляция не различает роли переменных: `correlation(x,y) = correlation(y,x)`. В `линейная регрессия` вы минимизируете ошибки предсказания `y` по `x`, поэтому при перестановке ролей получите другую модель. Это важно для корректной постановки вопроса: предсказывать или объяснять.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей