MLOps мониторинг моделей на собеседовании Data Scientist

Проверь себя · 1/3разбор после ответа
Для разницы долей p_treat - p_control вы построили 95% доверительный интервал, и он целиком выше 0. Что это означает для двустороннего теста на уровне alpha = 0.05?

Что мониторить

Input. Distribution features.

Output. Distribution predictions.

Performance. Accuracy / metrics (когда labels available).

System. Latency, throughput, error rates.

Business. Conversion / revenue impact.

Data drift

Distribution input features changes vs training.

training: P(X_train).
production: P(X_prod).

Detection methods:

  • KS test, PSI.
  • Multi-variate (MMD, classifier).

Setup alerts when drift exceeds threshold.

Prediction drift

Output distribution changes (could be due to drift или real change).

training: 30% predicted "positive".
production: 60% — что произошло?

Doesn't necessarily imply degradation. Investigate.

Performance monitoring

Accuracy/AUC/etc — requires labels.

Issues:

  • Labels delayed (chargeback за weeks).
  • Labels expensive (manual annotation).
  • Labels biased (only confident predictions reviewed).

Workarounds:

  • Proxy metrics (early signals).
  • Sampling for human review.
  • Approximate labels.
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Outliers и anomalies

Individual prediction outliers — model uncertain или OOD.

Confidence calibration. Low confidence → flag для review.

OOD detection. «Energy score», «Mahalanobis distance» в feature space.

Tools

Evidently AI. Open source.

Whylogs / WhyLabs. Profiles-based.

Arize, Fiddler, Aporia. Commercial.

Custom. Python + Prometheus + Grafana.

Best dashboards include:

  • Feature distribution per day.
  • Performance metrics over time.
  • Alert thresholds.
  • Compare текущий период vs baseline.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на ML monitoring industry practices.


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.