Model deployment strategies на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

REST API

Standard online inference.

POST /predict {features: ...} → {prediction: ...}

Tools: FastAPI, Triton, TorchServe, TF Serving, BentoML.

Pros: flexible, language-agnostic.

Cons: network latency.

Batch inference

Process records в bulk асинхронно.

Spark / dbt-ml / SageMaker Batch Transform.
Read 1M records → predict → write predictions.

Pros: efficient throughput.

Cons: не real-time.

Use cases: nightly scoring, bulk reports.

Embedded

Model в application. No external service.

model = load_model('model.pkl')
prediction = model.predict(x)  # in-process.

Pros: no network. Lower latency.

Cons: model updates require app deploy.

ONNX, native libraries.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Edge / mobile

On-device inference.

TensorFlow Lite. Mobile / embedded.

Core ML. iOS.

ONNX Runtime Mobile. Cross-platform.

llama.cpp. LLM на CPU / mobile.

Pros: offline, privacy, latency.

Cons: smaller models, hardware variance.

Streaming

Process events from Kafka / Pulsar.

Kafka topic → Spark / Flink → predict → output topic / DB.

Pros: continuous low-latency processing.

Cons: complex infra.

Used fraud detection, real-time recommendations.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на ML deployment industry practices.


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.