Вопросы по теме «Корреляция и регрессия»

Корреляция Пирсона, Спирмена, линейная регрессия, R-квадрат — инструменты для изучения связей между переменными. На собеседовании часто повторяют: «корреляция не означает причинность» — и просят привести пример. Также спрашивают про интерпретацию коэффициентов регрессии и предпосылки OLS.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 15 из 20

1В `линейная регрессия` `orders = a + b*price` вы получили `b = -0.02`. Как правильно читать этот коэффициент?
AПри росте `price` на 1 ожидаемые `orders` растут на 0.02
B`b` равен `Pearson r` между `orders` и `price`
CВ среднем увеличение `price` на 1 связано со снижением `orders` на 0.02 (в единицах метрики) в рамках модели
DЭто означает, что цена причинно снижает заказы на 2% в любом случае
Ответ: Наклон `b` показывает изменение `y` при увеличении `x` на 1 в единицах измерения.

Коэффициент регрессии измеряется в единицах `y` на единицу `x`, поэтому важно понимать шкалы. Отрицательный знак означает, что при большем `price` модель ожидает меньше `orders`. Типичная ошибка — путать `b` с процентами или с `Pearson r` и сразу делать причинный вывод.

2В отчете нашли положительную `correlation` между числом пушей на пользователя и выручкой. Какой вывод наиболее корректен?
AНельзя утверждать причинность: `correlation` не доказывает, что пуши увеличили выручку
BПуши точно увеличили выручку, раз `correlation` положительная
CПричинность есть только если `Pearson r` больше 0.5
DПричинность есть, потому что данные за один и тот же месяц
Ответ: Связь в данных не равна причинному эффекту.

`correlation` показывает совместное изменение двух величин, но не отвечает на вопрос, что является причиной. Часто есть скрытый `confounding`: например, активные пользователи получают больше пушей и больше покупают. Чтобы говорить о причинности, нужен эксперимент или дизайн, который делает группы сопоставимыми.

3В данных по товарам `Pearson r` между ценой и конверсией равен -0.7. Как это интерпретировать?
AСильная положительная линейная связь
BДостаточно сильная отрицательная линейная связь: при большей цене конверсия обычно ниже
CСвязи нет, потому что `Pearson r` не равен 1
DЦена причинно снижает конверсию на 70%
Ответ: `Pearson r` описывает направление и силу линейной связи, но не причинность.

Знак `Pearson r` показывает направление: при отрицательном значении одна величина обычно растет, когда другая падает. Модуль около 0.7 часто трактуют как заметную линейную связь в данных. При этом `Pearson r` не доказывает, что цена является причиной изменения конверсии.

4В модели `линейная регрессия` вида `revenue = a + b*emails` коэффициент `b` равен 0.8. Как правильно интерпретировать `b`?
AПри увеличении `emails` на 1 `revenue` увеличится ровно на 80% для каждого пользователя
B`b` — это `correlation` между `emails` и `revenue`
C`b` — это ожидаемое значение `revenue` при `emails = 0`
DВ среднем при увеличении `emails` на 1 ожидаемый `revenue` изменится на 0.8 единицы (в пределах модели)
Ответ: Коэффициент в `линейная регрессия` — это наклон: изменение `y` при изменении `x` на 1.

В простейшей регрессии `b` показывает, на сколько в среднем меняется прогноз `y`, если `x` увеличить на 1. Это описание внутри модели и данных, а не гарантия для каждого пользователя. Типичная ошибка — путать `b` с `correlation` или трактовать его как неизбежную причинность.

5Вы хотите быстро проверить, есть ли линейная связь между `avg_session_time` и `conversion rate` на уровне пользователя. Что наиболее подходит как первый шаг?
AПосчитать `Pearson r` и посмотреть scatter plot
BСразу запускать A/B тест
CОценить `Poisson(λ)` для каждого пользователя
DПосчитать `Geometric(p)` по пользователям
Ответ: Для первичной проверки линейной связи достаточно `Pearson r` и графика.

`Pearson r` дает одно число, но scatter plot помогает заметить выбросы и нелинейность. Это быстрый способ понять, стоит ли углубляться в моделирование. Важно помнить, что даже заметная `correlation` не означает причинность без дополнительного дизайна.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей