Inference optimization на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

Production ML — это не train, а serve. На собесе DS / MLE: «как ускорить inference», «edge deployment».

ONNX

Open Neural Network Exchange. Standard format для ML models.

import torch
torch.onnx.export(model, dummy_input, "model.onnx")

Загрузка в любой ONNX runtime — Python, C++, Java, JS.

Преимущества:

  • Cross-framework (PyTorch → TF deploy).
  • ONNX Runtime — optimized inference (CPU + GPU).
  • Quantization built-in.

TensorRT и подобные

NVIDIA TensorRT. Самый быстрый inference на NVIDIA GPU. Compiles ONNX / PyTorch model в optimized engine.

Speedup: 2-10× vs raw PyTorch.

Tools:

  • TensorRT-LLM — для LLM specifically.
  • vLLM — open source LLM serving.
  • Triton Inference Server — multi-framework.

Apple CoreML для iOS / macOS.

ONNX Runtime для CPU и cross-platform.

Batching

Если incoming queries individual — GPU underutilized. Batching combines.

Static batching. Wait для batch_size, потom inference.

Dynamic batching (Triton). Wait max_batch_delay_ms или max_batch_size. Whichever first.

Continuous batching (vLLM). Specifically для LLM — different sequence lengths efficient.

10-100× throughput improvement при правильном batching.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Quantization

Reduce precision (FP32 → FP16 → INT8 → INT4) для speed + memory.

Post-training quantization. No retraining. Быстро, может lose accuracy.

Quantization-aware training. Train с quantization simulation. Better accuracy.

INT8 — typically < 1% accuracy drop, 2-4× speedup.

Edge inference

Mobile / IoT — limited compute, memory.

Tools:

  • TensorFlow Lite.
  • ONNX Runtime Mobile.
  • CoreML (iOS).
  • llama.cpp для LLM на CPU.

Tactics:

  • Distilled / smaller model.
  • Quantization aggressive (INT4).
  • Pruning.
  • Compile к specific hardware.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации ONNX / TensorRT / vLLM.


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.