Question 1

В линейной регрессии `orders = a + b*price` вы получили `b = -0.02`. Как правильно читать этот коэффициент?

Accepted Answer

Наклон `b` показывает изменение `y` при увеличении `x` на 1 в единицах измерения, без причинного вывода. Коэффициент регрессии измеряется в единицах `y` на единицу `x`, поэтому важно учитывать шкалы переменных. Отрицательный знак означает, что при большей цене модель ожидает меньше заказов в среднем. Типичная ошибка — путать `b` с процентами или с коэффициентом корреляции, а также сразу делать причинный вывод без анализа дизайна данных.

Question 2

В отчёте нашли положительную корреляцию между числом пушей на пользователя и выручкой. Какой вывод наиболее корректен?

Accepted Answer

Связь в данных не равна причинному эффекту: для причинности нужен эксперимент или сопоставимые группы. Положительная корреляция между числом пушей и выручкой по пользователям не означает, что пуши вызвали рост выручки. Скорее всего работает обратный отбор: активные платящие пользователи и так чаще открывают приложение, поэтому им чаще успевают отправить пуш-уведомление. Чтобы измерить эффект, нужен A/B-тест с рандомизацией пушей. Никакого магического порога коэффициента корреляции для подтверждения причинности нет. Сбор данных за один период не устраняет конфаундеры — нужен случайный механизм, разделяющий пользователей независимо от их прошлого поведения.

Question 3

В данных по товарам коэффициент корреляции Пирсона между ценой и конверсией равен -0.7. Как это интерпретировать?

Accepted Answer

Коэффициент Пирсона описывает направление и силу линейной связи, но не причинность. Знак коэффициента Пирсона показывает направление: при отрицательном значении одна величина обычно растёт, когда другая падает. Модуль около 0.7 часто трактуют как заметную линейную связь в данных. При этом коэффициент Пирсона не доказывает, что цена является причиной изменения конверсии. Положительная связь противоречит знаку; «связи нет» — миф (нужно сравнивать с нулём, а не с единицей); проценты в причинном смысле — подмена величины коэффициента эффектом.

Question 4

В модели линейной регрессии `revenue = a + b*emails` коэффициент `b` равен 0.8. Как правильно интерпретировать `b`?

Accepted Answer

Коэффициент в линейной регрессии — это наклон: изменение зависимой переменной при изменении предиктора на 1. В простейшей регрессии `b` показывает, на сколько в среднем меняется прогноз зависимой переменной, если предиктор увеличить на 1. Это описание внутри модели и данных, а не гарантия для каждого пользователя и не процент. Корреляция и коэффициент регрессии — разные величины, у них разные шкалы и единицы. Значение при нуле предиктора — это уже свободный член `a`, а не наклон `b`.

Question 5

Вы хотите быстро проверить, есть ли линейная связь между средним временем сессии и конверсией на уровне пользователя. Что наиболее подходит как первый шаг?

Accepted Answer

Для первичной проверки линейной связи достаточно коэффициента `Pearson r` и диаграммы рассеяния. Коэффициент корреляции `Pearson r` даёт одно число, но диаграмма рассеяния помогает заметить выбросы и нелинейность. Это быстрый способ понять, стоит ли углубляться в моделирование. Важно помнить, что даже заметная корреляция не означает причинность без отдельного дизайна. Запускать A/B-тест без предварительной проверки или подгонять `Poisson` и `Geometric` к этим данным — это либо преждевременно, либо просто не та задача.

Вопросы по теме «Корреляция и регрессия»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика