Question 1

Когда использование `Pearson r` наиболее уместно?

Accepted Answer

`Pearson r` лучше всего работает для линейной связи между числовыми переменными. `Pearson r` измеряет линейную ассоциацию и чувствителен к выбросам. Поэтому обычно смотрят график и проверяют, что данные не состоят из категорий, закодированных числами. Для нелинейных зависимостей нулевая `Pearson r` не означает отсутствие связи, поэтому выбор меры зависит от постановки.

Question 2

Вы построили `линейная регрессия` `churn = a + b*notifications` и получили `b > 0`. PM говорит: уведомления увеличивают отток, выключаем. Какое уточнение по допущениям самое важное перед причинным выводом?

Accepted Answer

Коэффициент регрессии не становится причинным без сильных допущений. Если уведомления чаще получают пользователи, которые уже на грани ухода, то `confounding` (смешение факторов) даст положительный `b` даже без вреда от уведомлений. Регрессия в наблюдательных данных часто описывает связь, а не эффект вмешательства. Для причинного вывода нужен эксперимент, квазиэксперимент или явный контроль ключевых факторов и проверка допущений.

Question 3

Вы оценили влияние цены на продажи через `линейная регрессия` `sales = a + b*price` и получили отрицательный `b`. Но в данных есть промо: при промо цена ниже и продажи выше, а промо не включили в модель. Какой риск наиболее типичен?

Accepted Answer

Пропущенный фактор, связанный и с `x`, и с `y`, создает `confounding` (смешение факторов) и смещение. Промо влияет на продажи напрямую и одновременно меняет цену, поэтому цена начинает отражать эффекты промо. Тогда `b` в `линейная регрессия` захватывает смесь причин, и интерпретация наклона становится неверной. Типичный фикс — добавить промо как переменную, либо строить дизайн, где назначение цены не связано с промо.

Question 4

У вас миллион наблюдений, `Pearson r` между двумя метриками равен 0.03, а `p-value` очень маленький. Какой вывод наиболее корректен для продукта?

Accepted Answer

`p-value` отвечает про обнаружимость, а не про размер эффекта. При большом объеме данных даже очень слабая `correlation` может быть статистически значимой. Для продуктовых решений важнее оценить эффект по масштабу и влиянию на метрики, а не только по `p-value`. Типичная ловушка — принять 'значимо' за 'важно' и переоценить влияние связи.

Question 5

В целом по всем пользователям `correlation` между временем загрузки и конверсией отрицательная. Но внутри каждого типа устройства `correlation` почти нулевая. Что это скорее всего означает?

Accepted Answer

Агрегирование может создать видимую связь из-за `confounding` между сегментами. Если один сегмент устройств одновременно медленнее и хуже конвертирует, агрегированные данные покажут отрицательную связь даже при отсутствии эффекта внутри сегментов. Это похоже на парадокс Симпсона и часто сигнализирует про смешение популяции. Правильный шаг — анализировать по сегментам или контролировать тип устройства в `линейная регрессия`.

Корреляция и регрессия: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика