Regression metrics на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
MAE
Mean Absolute Error.
MAE = (1/N) Σ |y_i - ŷ_i|Robust к outliers. Same units как target.
MSE
Mean Squared Error.
MSE = (1/N) Σ (y_i - ŷ_i)²Penalizes large errors more. Differentiable — used training. Squared units (problematic interpretation).
RMSE
Root MSE.
RMSE = √MSESame units as target. Sensitive к outliers.
Most popular для general regression.
MAPE / sMAPE
MAPE. Mean Absolute Percentage Error.
MAPE = (100/N) Σ |y_i - ŷ_i| / |y_i|Percent units. Issues:
- Undefined when y=0.
- Asymmetric (under-predict bounded к 100%, over unlimited).
sMAPE. Symmetric MAPE — uses average of actual + predicted в denominator. Fixes asymmetry.
R²
Coefficient determination.
R² = 1 - (SS_res / SS_total)Proportion variance explained. 1.0 = perfect, 0 = mean predictor, < 0 = worse than mean.
Useful для comparing models на same dataset.
Choosing
Outliers important. RMSE / MSE — sensitive.
Outliers should be ignored. MAE / median.
Percentage interpretation needed. MAPE / sMAPE.
Variance explained. R².
Quantile predictions. Quantile loss / pinball.
В практике — RMSE + R² often reported. MAPE для business context.
Связанные темы
- Linear vs logistic regression для DS
- Loss функции для DS
- Bias-variance trade-off для DS
- Forecasting system design для DS
- Подготовка к собесу Data Scientist
FAQ
Это официальная информация?
Нет. Статья основана на классических ML metrics.
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.