Question 1

В простой `линейная регрессия` с одним признаком `x` квадрат `Pearson r` (то есть `r^2`) чаще всего интерпретируют как…

Accepted Answer

`r^2` в простой регрессии связан с долей объясненной вариативности. Если `r^2` равно 0.25, это означает, что линейная модель с `x` объясняет около четверти вариации `y` относительно среднего. Это не говорит о причинности и не гарантирует хороших предсказаний для каждого наблюдения. Частая ошибка — читать `r^2` как долю 'причины' или как точность модели без проверки остатков.

Question 2

Конверсия растет со скидкой до порога, а затем почти не меняется. При этом `Pearson r` между скидкой и конверсией близок к 0. Какой вывод корректен?

Accepted Answer

Нулевая `Pearson r` не исключает нелинейную связь. `Pearson r` хорошо ловит именно линейные зависимости. Если связь насыщается или имеет порог, линейная мера может давать значение около нуля. В таких случаях стоит визуализировать данные или использовать модели, которые учитывают форму зависимости, а не только линейность.

Question 3

Вы посчитали `correlation` между количеством новых пользователей и количеством тикетов в саппорт и получили 0.9, потому что оба ряда росли каждый месяц. Какое действие лучше всего снижает риск `spurious` вывода?

Accepted Answer

Общий тренд может создавать `spurious` корреляции во временных рядах. Если две метрики растут со временем по внешним причинам, они будут коррелировать даже без реальной связи. Убирая тренд или контролируя время, вы проверяете, остаются ли совместные колебания поверх общего роста. Частая ошибка — интерпретировать трендовую корреляцию как прямое влияние одной метрики на другую.

Question 4

У вас 100 наблюдений, где почти нет связи между `x` и `y`, но есть одна точка с очень большим `x` и `y`. После добавления этой точки `Pearson r` стал 0.8. Что это чаще всего означает?

Accepted Answer

Один выброс может сильно изменить `Pearson r`. `Pearson r` зависит от ковариации и может резко вырасти из-за одной экстремальной точки. Поэтому полезно смотреть scatter plot и проверять устойчивость результата без выбросов. Типичная ловушка — принять выброс за закономерность и сделать сильный вывод про связь.

Question 5

Какое утверждение корректно сравнивает `correlation` и `линейная регрессия`?

Accepted Answer

`correlation` симметрична, а регрессия задает направление предсказания. Корреляция не различает роли переменных: `correlation(x,y) = correlation(y,x)`. В `линейная регрессия` вы минимизируете ошибки предсказания `y` по `x`, поэтому при перестановке ролей получите другую модель. Это важно для корректной постановки вопроса: предсказывать или объяснять.

Корреляция и регрессия: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика