Собеседование на ML Engineer в Cloud.ru
Содержание:
Почему Cloud.ru — особенный работодатель для MLE
Cloud.ru — крупная российская облачная платформа (бывшая SberCloud), часть экосистемы Сбера. Один из трёх крупнейших cloud-провайдеров РФ вместе с Yandex Cloud и VK Cloud. Продукты: Evolution (cloud-сервисы для общих нагрузок), Advanced (enterprise cloud), ML Space (managed-платформа для ML), GigaCloud для AI-нагрузок с GPU-инстансами, GigaChat API (LLM от Сбера). После активного роста AI-направления Cloud.ru стал ключевым enabler для российских AI-стартапов и корпоративных AI-проектов.
ML-системы и продукты: ML Platform (managed Jupyter, training, serving), distributed training на multi-GPU/multi-node, model serving (inference platform), GigaChat-инфраструктура (LLM serving, batch processing), MLOps-инструменты для клиентов. Особенность Cloud.ru как работодателя для MLE — здесь не только internal ML для optimization своих сервисов, но и продуктовый ML, который продаётся клиентам.
Стек: Python + PyTorch для нейросетей (включая large model training) + Catboost для табличных задач + K8s для deployment (Cloud.ru предоставляет managed K8s) + Go для backend-сервисов + ClickHouse + MLflow + Kubeflow для оркестрации ML-пайплайнов.
Актуальные вакансии — на hh.ru и сайте Cloud.ru.
Информация основана на публичных источниках и опыте кандидатов. Команды Cloud.ru используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл занимает 3-4 недели и включает 5-6 этапов. Cloud.ru — крупная корпоративная компания в группе Сбер с серьёзным фокусом на ML-инфраструктуру. Упор на distributed systems, MLOps и LLM-инфраструктуру.
1. HR-скрининг (30-45 минут)
Рекрутер проверяет фон: production-опыт ML на cloud-уровне, cloud / distributed / MLOps background — большой плюс. Готовь питч на 90 секунд: проекты, бизнес-эффект, стек. Если работал с distributed training, ML platforms, K8s-операторами — упомяни сразу.
2. ML-теория (60-90 минут)
Базовая секция с ведущим ML-инженером. Темы: классические бустинги (CatBoost), deep learning (трансформеры, attention, optimization), distributed training (data parallelism, model parallelism, ZeRO, DeepSpeed), LLM serving (batching, quantization, KV-cache). Будь готов рассказать про оптимизации inference на GPU.
Подготовка: ML-теория.
3. Python live coding (60 минут)
Live-кодинг: 1-2 задачи на алгоритмы (LeetCode Medium), плюс задача на ML-pipeline — реализовать distributed-aware training loop, отладить gradient accumulation, профилировать модель на GPU. Готовиться по LeetCode минимум 3-4 недели.
Подготовка: Python для DS.
4. ML System Design (90 минут)
Кейсовая секция. Кейсы уровня «спроектируй ML Space pipeline для клиентов с auto-scaling», «GigaChat inference-инфра для multi-tenant обслуживания», «distributed training с FSDP для больших моделей». Нужно: уточнить бизнес-метрику (throughput, latency, cost), описать архитектуру, выбрать оптимизации, продумать multi-tenancy.
Подготовка: MLOps, Model serving, Feature stores.
5. Production / scale (60 минут)
Секция про инфраструктуру: K8s deployment (operators, CRDs), distributed системы, мониторинг GPU-кластеров, capacity planning. Кейсы про инциденты на GPU, OOM в large model training, hot-spotting в multi-tenant inference.
Подготовка: Monitoring drift, Deployment strategies.
6. Поведенческое (45 минут)
С тимлидом и/или представителем команды. STAR-формат: конфликт с продактом, факап с моделью, спор по архитектуре. Cloud.ru ценит инженерную аккуратность и понимание масштаба cloud-системы.
Особенности по командам
ML Space. Managed ML-платформа для клиентов: notebooks, training jobs, model serving. Команда работает над оркестрацией K8s, lifecycle ML-проектов, billing. Подойдёт MLE с MLOps background, кто работал с similar managed-платформами (SageMaker, Vertex AI).
GigaChat API. LLM-инфра для GigaChat-моделей Сбера. Команда занимается inference-оптимизациями, batching, KV-cache management, мультитенантным обслуживанием. Стек включает PyTorch + custom kernels + специализированные inference-сервера (vLLM, TGI, кастомные). Очень перспективное направление.
GigaCloud. Инфраструктура для AI-нагрузок: GPU-кластеры, networking, storage для ML. Команда работает близко к hardware: A100/H100-инстансы, NVLink, GPUDirect, RDMA. Подойдёт тем, у кого есть низкоуровневый опыт.
Evolution / Advanced. Общие cloud-сервисы (compute, network, storage, databases). ML-инженеры здесь работают на product-side: рекомендации сервисов, авто-скейлинг моделей, anomaly detection для operations.
MK8s. Managed Kubernetes — большое направление. ML-инженеры могут быть тесно связаны с MK8s через operators для ML-нагрузок (training operators, serving controllers). Подойдёт тем, у кого опыт с custom resources и operators.
Что Cloud.ru ценит в MLE
Production ML на cloud-уровне. Базовое требование. Слабый — «делал на Kaggle»; сильный — «развернул inference-сервис для LLM на 100 RPS, latency p99 < 500ms, использовал vLLM с continuous batching, GPU utilization 85%».
GigaChat / LLM-инфра. Знание LLM serving — критично для perspective направлений. Слабый — «использовал OpenAI API»; сильный — «настроил vLLM с tensor parallelism на 4 GPU, оптимизировал through paged attention».
MLOps fluency. Train-serving skew, feature stores, model registry, A/B-инфраструктура. Cloud.ru продаёт MLOps как сервис, ожидает экспертизы.
K8s. Не просто deploy, но operators, controllers, CRDs. Сильный — «писал custom operator для управления ML-jobs, использовал client-go».
PyTorch / Catboost / Python. Стандарт. Знание low-level PyTorch (custom kernels, torch.compile, FSDP) — большой плюс.
Как готовиться: план
За 6-8 недель до собеседования:
- Неделя 1-2 — Python + ML + distributed. LeetCode Medium 30+ задач, distributed training (DDP, FSDP), профайлинг GPU. Параллельно прорешай вопросы по Python, ML и SQL в Карьернике: 1500+ задач с разбивкой по темам, по 10-15 минут в день закрывают пробелы перед собесом. Python для DS, ML-теория.
- Неделя 3 — K8s + Cloud. K8s operators, helm, kubectl, custom resources. Хотя бы 1 inference-сервис подними в K8s.
- Неделя 4 — MLOps + feature stores. Train-serving skew, ML lifecycle, feature stores. MLOps, Feature stores.
- Неделя 5 — System design + LLM serving. vLLM, TGI, batching, KV-cache, multi-tenancy. Model serving.
- Неделя 6 — Monitoring + deployment. GPU monitoring, A/B, canary. Monitoring drift.
- Неделя 7-8 — Mocks + behavioral. Mock-интервью, 5-7 STAR-историй.
Частые ошибки
Без cloud / distributed. Кандидат говорит «работал в local Docker» — для cloud-платформы слабо. Сильный — «опыт с EKS / GKE / AKS, managed services, capacity planning».
Без LLM-инфра. Кандидат говорит «работал с classification» — для GigaChat-команды слабо. Сильный — «настроил vLLM, оптимизировал KV-cache, разбираюсь в paged attention и continuous batching».
Без K8s. «Деплоил через docker-compose» — слабо. Сильный — «писал custom controllers, использовал client-go, разворачивал operators».
Только notebook. Кандидаты с Jupyter-only валятся. Сильный — «свои проекты переписал в виде пакетов с тестами и CI/CD».
Без production опыта. «У нас была модель» — не история. Сильный — «inference-сервис для LLM на 100 RPS, latency p99 < 500ms, GPU utilization 85%, multi-tenancy с QoS».
Связанные темы
- Собеседование на ML Engineer
- MLOps
- Feature stores
- Model serving
- Monitoring и drift
- Deployment strategies
FAQ
Удалёнка в Cloud.ru для MLE?
Гибрид и удалёнка распространены. Офисы — в Москве.
Зарплатные вилки 2026?
Middle MLE: 330-490k. Senior: 490-740k. Для GigaChat-команды — выше из-за дефицита LLM-инженеров.
Английский нужен?
Базовый — желательно (документация, статьи). Свободный — большой плюс для R&D-направлений.
Сколько этапов?
5-6 этапов, 3-4 недели.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.