Evaluation classification metrics на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Confusion matrix
Predicted
Pos Neg
Actual Pos TP FN
Neg FP TN- TP — correctly identified positives.
- FN — missed positives (false negatives).
- FP — false alarms.
- TN — correctly identified negatives.
Precision и recall
Precision = TP / (TP + FP). Из predicted positive — сколько really positive.
Recall (= TPR, sensitivity) = TP / (TP + FN). Из actual positive — сколько найдено.
Trade-off. High precision usually means low recall и vice versa.
Examples:
- Spam filter — high precision (don't mark legitimate как spam).
- Cancer screening — high recall (don't miss cancers).
F1 score
Harmonic mean precision + recall.
F1 = 2 · (precision · recall) / (precision + recall)Equally weighs both. Useful когда одинаково важны.
F-beta
Weighted version.
F_β = (1 + β²) · (P · R) / (β² · P + R)β = 0.5 — weighs precision больше.
β = 2 — weighs recall больше (cancer screening).
Choosing metric
Balanced classes, balanced costs. Accuracy.
Imbalanced. F1, PR-AUC.
Cost FP > FN. Precision-focused (F0.5).
Cost FN > FP. Recall-focused (F2).
Want threshold tuning. ROC-AUC, PR-AUC.
Multi-class. Macro / micro / weighted F1.
Связанные темы
- ROC-AUC vs PR-AUC для DS
- Class imbalance для DS
- Calibration для DS
- Bias-variance trade-off для DS
- Подготовка к собесу Data Scientist
FAQ
Это официальная информация?
Нет. Статья основана на классической ML evaluation.
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.