7 мая 2026 г.·3 мин чтения

Inference optimization на собеседовании Data Scientist

Q: Это официальная информация?

Нет. Статья основана на документации ONNX / TensorRT / vLLM. --- Тренируйте Data Science — [откройте тренажёр](https://t.me/kariernik_bot/app?startapp=web_blog_inference-optimization-na-sobesedovanii-ds) с 1500+ вопросами для собесов.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Содержание:

Зачем разбирать на собесе
ONNX
TensorRT и подобные
Batching
Quantization
Edge inference
Связанные темы
FAQ

Зачем разбирать на собесе

Production ML — это не train, а serve. На собесе DS / MLE: «как ускорить inference», «edge deployment».

ONNX

Open Neural Network Exchange. Standard format для ML models.

import torch
torch.onnx.export(model, dummy_input, "model.onnx")

Загрузка в любой ONNX runtime — Python, C++, Java, JS.

Преимущества:

Cross-framework (PyTorch → TF deploy).
ONNX Runtime — optimized inference (CPU + GPU).
Quantization built-in.

TensorRT и подобные

NVIDIA TensorRT. Самый быстрый inference на NVIDIA GPU. Compiles ONNX / PyTorch model в optimized engine.

Speedup: 2-10× vs raw PyTorch.

Tools:

TensorRT-LLM — для LLM specifically.
vLLM — open source LLM serving.
Triton Inference Server — multi-framework.

Apple CoreML для iOS / macOS.

ONNX Runtime для CPU и cross-platform.

Batching

Если incoming queries individual — GPU underutilized. Batching combines.

Static batching. Wait для batch_size, потom inference.

Dynamic batching (Triton). Wait max_batch_delay_ms или max_batch_size. Whichever first.

Continuous batching (vLLM). Specifically для LLM — different sequence lengths efficient.

10-100× throughput improvement при правильном batching.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Quantization

Reduce precision (FP32 → FP16 → INT8 → INT4) для speed + memory.

Post-training quantization. No retraining. Быстро, может lose accuracy.

Quantization-aware training. Train с quantization simulation. Better accuracy.

INT8 — typically < 1% accuracy drop, 2-4× speedup.

Edge inference

Mobile / IoT — limited compute, memory.

Tools:

TensorFlow Lite.
ONNX Runtime Mobile.
CoreML (iOS).
llama.cpp для LLM на CPU.

Tactics:

Distilled / smaller model.
Quantization aggressive (INT4).
Pruning.
Compile к specific hardware.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации ONNX / TensorRT / vLLM.

Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.