Evaluation classification metrics на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Confusion matrix

              Predicted
              Pos    Neg
Actual Pos    TP    FN
       Neg    FP    TN
  • TP — correctly identified positives.
  • FN — missed positives (false negatives).
  • FP — false alarms.
  • TN — correctly identified negatives.

Precision и recall

Precision = TP / (TP + FP). Из predicted positive — сколько really positive.

Recall (= TPR, sensitivity) = TP / (TP + FN). Из actual positive — сколько найдено.

Trade-off. High precision usually means low recall и vice versa.

Examples:

  • Spam filter — high precision (don't mark legitimate как spam).
  • Cancer screening — high recall (don't miss cancers).

F1 score

Harmonic mean precision + recall.

F1 = 2 · (precision · recall) / (precision + recall)

Equally weighs both. Useful когда одинаково важны.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

F-beta

Weighted version.

F_β = (1 + β²) · (P · R) / (β² · P + R)

β = 0.5 — weighs precision больше.

β = 2 — weighs recall больше (cancer screening).

Choosing metric

Balanced classes, balanced costs. Accuracy.

Imbalanced. F1, PR-AUC.

Cost FP > FN. Precision-focused (F0.5).

Cost FN > FP. Recall-focused (F2).

Want threshold tuning. ROC-AUC, PR-AUC.

Multi-class. Macro / micro / weighted F1.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на классической ML evaluation.


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.