Inference optimization на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Production ML — это не train, а serve. На собесе DS / MLE: «как ускорить inference», «edge deployment».
ONNX
Open Neural Network Exchange. Standard format для ML models.
import torch
torch.onnx.export(model, dummy_input, "model.onnx")Загрузка в любой ONNX runtime — Python, C++, Java, JS.
Преимущества:
- Cross-framework (PyTorch → TF deploy).
- ONNX Runtime — optimized inference (CPU + GPU).
- Quantization built-in.
TensorRT и подобные
NVIDIA TensorRT. Самый быстрый inference на NVIDIA GPU. Compiles ONNX / PyTorch model в optimized engine.
Speedup: 2-10× vs raw PyTorch.
Tools:
- TensorRT-LLM — для LLM specifically.
- vLLM — open source LLM serving.
- Triton Inference Server — multi-framework.
Apple CoreML для iOS / macOS.
ONNX Runtime для CPU и cross-platform.
Batching
Если incoming queries individual — GPU underutilized. Batching combines.
Static batching. Wait для batch_size, потom inference.
Dynamic batching (Triton). Wait max_batch_delay_ms или max_batch_size. Whichever first.
Continuous batching (vLLM). Specifically для LLM — different sequence lengths efficient.
10-100× throughput improvement при правильном batching.
Quantization
Reduce precision (FP32 → FP16 → INT8 → INT4) для speed + memory.
Post-training quantization. No retraining. Быстро, может lose accuracy.
Quantization-aware training. Train с quantization simulation. Better accuracy.
INT8 — typically < 1% accuracy drop, 2-4× speedup.
Edge inference
Mobile / IoT — limited compute, memory.
Tools:
- TensorFlow Lite.
- ONNX Runtime Mobile.
- CoreML (iOS).
- llama.cpp для LLM на CPU.
Tactics:
- Distilled / smaller model.
- Quantization aggressive (INT4).
- Pruning.
- Compile к specific hardware.
Связанные темы
- Квантование LLM на собесе DS
- Pruning и distillation для DS
- KV-cache и speculative decoding для DS
- MLOps на собесе DS
- Подготовка к собесу Data Scientist
FAQ
Это официальная информация?
Нет. Статья основана на документации ONNX / TensorRT / vLLM.
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.