Собеседование на ML Engineer в Cloud.ru

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Cloud.ru — особенный работодатель для MLE

Cloud.ru — крупная российская облачная платформа (бывшая SberCloud), часть экосистемы Сбера. Один из трёх крупнейших cloud-провайдеров РФ вместе с Yandex Cloud и VK Cloud. Продукты: Evolution (cloud-сервисы для общих нагрузок), Advanced (enterprise cloud), ML Space (managed-платформа для ML), GigaCloud для AI-нагрузок с GPU-инстансами, GigaChat API (LLM от Сбера). После активного роста AI-направления Cloud.ru стал ключевым enabler для российских AI-стартапов и корпоративных AI-проектов.

ML-системы и продукты: ML Platform (managed Jupyter, training, serving), distributed training на multi-GPU/multi-node, model serving (inference platform), GigaChat-инфраструктура (LLM serving, batch processing), MLOps-инструменты для клиентов. Особенность Cloud.ru как работодателя для MLE — здесь не только internal ML для optimization своих сервисов, но и продуктовый ML, который продаётся клиентам.

Стек: Python + PyTorch для нейросетей (включая large model training) + Catboost для табличных задач + K8s для deployment (Cloud.ru предоставляет managed K8s) + Go для backend-сервисов + ClickHouse + MLflow + Kubeflow для оркестрации ML-пайплайнов.

Актуальные вакансии — на hh.ru и сайте Cloud.ru.

Информация основана на публичных источниках и опыте кандидатов. Команды Cloud.ru используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

Цикл занимает 3-4 недели и включает 5-6 этапов. Cloud.ru — крупная корпоративная компания в группе Сбер с серьёзным фокусом на ML-инфраструктуру. Упор на distributed systems, MLOps и LLM-инфраструктуру.

1. HR-скрининг (30-45 минут)

Рекрутер проверяет фон: production-опыт ML на cloud-уровне, cloud / distributed / MLOps background — большой плюс. Готовь питч на 90 секунд: проекты, бизнес-эффект, стек. Если работал с distributed training, ML platforms, K8s-операторами — упомяни сразу.

2. ML-теория (60-90 минут)

Базовая секция с ведущим ML-инженером. Темы: классические бустинги (CatBoost), deep learning (трансформеры, attention, optimization), distributed training (data parallelism, model parallelism, ZeRO, DeepSpeed), LLM serving (batching, quantization, KV-cache). Будь готов рассказать про оптимизации inference на GPU.

Подготовка: ML-теория.

3. Python live coding (60 минут)

Live-кодинг: 1-2 задачи на алгоритмы (LeetCode Medium), плюс задача на ML-pipeline — реализовать distributed-aware training loop, отладить gradient accumulation, профилировать модель на GPU. Готовиться по LeetCode минимум 3-4 недели.

Подготовка: Python для DS.

4. ML System Design (90 минут)

Кейсовая секция. Кейсы уровня «спроектируй ML Space pipeline для клиентов с auto-scaling», «GigaChat inference-инфра для multi-tenant обслуживания», «distributed training с FSDP для больших моделей». Нужно: уточнить бизнес-метрику (throughput, latency, cost), описать архитектуру, выбрать оптимизации, продумать multi-tenancy.

Подготовка: MLOps, Model serving, Feature stores.

5. Production / scale (60 минут)

Секция про инфраструктуру: K8s deployment (operators, CRDs), distributed системы, мониторинг GPU-кластеров, capacity planning. Кейсы про инциденты на GPU, OOM в large model training, hot-spotting в multi-tenant inference.

Подготовка: Monitoring drift, Deployment strategies.

6. Поведенческое (45 минут)

С тимлидом и/или представителем команды. STAR-формат: конфликт с продактом, факап с моделью, спор по архитектуре. Cloud.ru ценит инженерную аккуратность и понимание масштаба cloud-системы.

Особенности по командам

ML Space. Managed ML-платформа для клиентов: notebooks, training jobs, model serving. Команда работает над оркестрацией K8s, lifecycle ML-проектов, billing. Подойдёт MLE с MLOps background, кто работал с similar managed-платформами (SageMaker, Vertex AI).

GigaChat API. LLM-инфра для GigaChat-моделей Сбера. Команда занимается inference-оптимизациями, batching, KV-cache management, мультитенантным обслуживанием. Стек включает PyTorch + custom kernels + специализированные inference-сервера (vLLM, TGI, кастомные). Очень перспективное направление.

GigaCloud. Инфраструктура для AI-нагрузок: GPU-кластеры, networking, storage для ML. Команда работает близко к hardware: A100/H100-инстансы, NVLink, GPUDirect, RDMA. Подойдёт тем, у кого есть низкоуровневый опыт.

Evolution / Advanced. Общие cloud-сервисы (compute, network, storage, databases). ML-инженеры здесь работают на product-side: рекомендации сервисов, авто-скейлинг моделей, anomaly detection для operations.

MK8s. Managed Kubernetes — большое направление. ML-инженеры могут быть тесно связаны с MK8s через operators для ML-нагрузок (training operators, serving controllers). Подойдёт тем, у кого опыт с custom resources и operators.

Что Cloud.ru ценит в MLE

Production ML на cloud-уровне. Базовое требование. Слабый — «делал на Kaggle»; сильный — «развернул inference-сервис для LLM на 100 RPS, latency p99 < 500ms, использовал vLLM с continuous batching, GPU utilization 85%».

GigaChat / LLM-инфра. Знание LLM serving — критично для perspective направлений. Слабый — «использовал OpenAI API»; сильный — «настроил vLLM с tensor parallelism на 4 GPU, оптимизировал through paged attention».

MLOps fluency. Train-serving skew, feature stores, model registry, A/B-инфраструктура. Cloud.ru продаёт MLOps как сервис, ожидает экспертизы.

K8s. Не просто deploy, но operators, controllers, CRDs. Сильный — «писал custom operator для управления ML-jobs, использовал client-go».

PyTorch / Catboost / Python. Стандарт. Знание low-level PyTorch (custom kernels, torch.compile, FSDP) — большой плюс.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 6-8 недель до собеседования:

  1. Неделя 1-2 — Python + ML + distributed. LeetCode Medium 30+ задач, distributed training (DDP, FSDP), профайлинг GPU. Параллельно прорешай вопросы по Python, ML и SQL в Карьернике: 1500+ задач с разбивкой по темам, по 10-15 минут в день закрывают пробелы перед собесом. Python для DS, ML-теория.
  2. Неделя 3 — K8s + Cloud. K8s operators, helm, kubectl, custom resources. Хотя бы 1 inference-сервис подними в K8s.
  3. Неделя 4 — MLOps + feature stores. Train-serving skew, ML lifecycle, feature stores. MLOps, Feature stores.
  4. Неделя 5 — System design + LLM serving. vLLM, TGI, batching, KV-cache, multi-tenancy. Model serving.
  5. Неделя 6 — Monitoring + deployment. GPU monitoring, A/B, canary. Monitoring drift.
  6. Неделя 7-8 — Mocks + behavioral. Mock-интервью, 5-7 STAR-историй.

Частые ошибки

Без cloud / distributed. Кандидат говорит «работал в local Docker» — для cloud-платформы слабо. Сильный — «опыт с EKS / GKE / AKS, managed services, capacity planning».

Без LLM-инфра. Кандидат говорит «работал с classification» — для GigaChat-команды слабо. Сильный — «настроил vLLM, оптимизировал KV-cache, разбираюсь в paged attention и continuous batching».

Без K8s. «Деплоил через docker-compose» — слабо. Сильный — «писал custom controllers, использовал client-go, разворачивал operators».

Только notebook. Кандидаты с Jupyter-only валятся. Сильный — «свои проекты переписал в виде пакетов с тестами и CI/CD».

Без production опыта. «У нас была модель» — не история. Сильный — «inference-сервис для LLM на 100 RPS, latency p99 < 500ms, GPU utilization 85%, multi-tenancy с QoS».

Связанные темы

FAQ

Удалёнка в Cloud.ru для MLE?

Гибрид и удалёнка распространены. Офисы — в Москве.

Зарплатные вилки 2026?

Middle MLE: 330-490k. Senior: 490-740k. Для GigaChat-команды — выше из-за дефицита LLM-инженеров.

Английский нужен?

Базовый — желательно (документация, статьи). Свободный — большой плюс для R&D-направлений.

Сколько этапов?

5-6 этапов, 3-4 недели.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.