Линейная регрессия обучена на скидках от 0 до 30%. Продакт-менеджер просит предсказать конверсию при скидке 80%. Какой ответ наиболее корректен?

AМожно смело предсказывать, потому что линейная регрессия одинаково работает для любых значений признака
BДостаточно увеличить число наблюдений в диапазоне 0–30%, и тогда модель будет уверенно экстраполировать на 80%
CНужно посчитать коэффициент корреляции Пирсона: при высокой корреляции экстраполяция становится надёжной автоматически
DЭто экстраполяция вне диапазона данных: предсказание может быть неверным, лучше собрать данные в нужном диапазоне
Правильный ответ. Экстраполяция вне диапазона данных — частая ловушка в регрессии: за пределами обучающего диапазона связь может перестать быть линейной.

Разбор

Линейная модель может хорошо описывать связь в наблюдаемом диапазоне и при этом давать абсурдные значения за его пределами. При скидке 80% могут включиться другие механизмы (отток платящих, насыщение спроса), и линейность нарушится. Поэтому корректнее либо собрать данные в нужном диапазоне, либо заранее ограничить область применения модели. Высокая корреляция Пирсона на старых данных тоже не гарантирует надёжной экстраполяции.

Проверь себя · 1/3разбор после ответа
Вы построили линейную регрессию churn = a + b*notifications и получили b > 0. Менеджер говорит: уведомления увеличивают отток, выключаем. Какое уточнение по допущениям самое важное перед причинным выводом?
Тренировать статистику в Telegram

Ещё вопросы по теме «Корреляция и регрессия»