Собеседование на Data Engineer в Cloud.ru
Содержание:
Почему Cloud.ru — особенный работодатель для DE
Cloud.ru (ранее SberCloud) — облачное подразделение группы Сбер, второй-третий по размеру публичный облачный провайдер РФ: IaaS, PaaS, managed-сервисы баз данных, ML-платформа ML Space, AI-сервисы поверх инфраструктуры Сбера (включая GigaChat, Kandinsky и другие модели группы). Для Data Engineer это специфический контекст: с одной стороны — классические облачные DE-задачи (биллинг, телеметрия, capacity), с другой — много вокруг AI/ML (data lake для обучения foundation-моделей, фичи для inference, мониторинг GPU-кластеров).
Главные DE-домены: построение биллинг-DWH (расход IaaS, PaaS, AI-сервисов с точностью до минуты); pipeline телеметрии серверов и GPU-кластеров; data lake для обучения foundation-моделей (большие датасеты, версионирование, lineage); data infrastructure для ML Space (фичи, эксперимент-трекинг, model registry); B2B-аналитика клиентов (dashboards в личном кабинете как product feature); внутренняя SaaS-аналитика; интеграция со стеком Сбер AI; регуляторная отчётность.
Стек: ClickHouse и Greenplum как основные DWH + специализированные инструменты группы Сбер; Kafka + Debezium для CDC; Airflow + Spark + dbt; data lake на S3-совместимых хранилищах + Iceberg/Hudi; Sber AI инфраструктура для ML-частей; Prometheus + Grafana + кастомные инструменты Сбер для observability. Архитектура — гибрид: классический энтерпрайз плюс активные ML-инициативы.
Актуальные вакансии — на hh.ru и сайте Cloud.ru.
Информация основана на публичных источниках и опыте кандидатов. Команды Cloud.ru используют разные процессы — формат и этапы зависят от направления, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 4-6 недель, 5-6 этапов. Процесс ближе к Сберу: HR, тестовое (часто), техническое интервью, продуктово-архитектурный кейс, поведенческое, финал. Для ролей с допусками к гос-облаку — расширенная СБ-проверка.
1. HR-скрининг (30-45 минут)
Рекрутер уточняет: production-опыт DE (от 2 лет, желательно с большими объёмами или ML-инфраструктурой), знание классического DWH и современного data stack, мотивацию идти в Cloud.ru, ожидания по компенсации и формату (Москва, Кутузовский, гибрид). Готовь питч на 90 секунд про самый зрелый production-pipeline.
2. Техническое интервью / SQL и архитектура (60-90 минут)
Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, рекурсивные CTE, оптимизация, partitioning, индексы, EXPLAIN, ClickHouse и Greenplum специфика), модели данных (звезда, снежинка, SCD типы, Data Vault — для биллинга), batch vs streaming, CDC (Debezium), data quality, data lineage. Для ML-направлений — отдельный блок про feature stores, train-serving skew, версионирование данных и моделей.
Подготовка: SQL для DE, Data modeling, Kafka streaming.
3. Python + SQL live coding (60-90 минут)
Задачи прагматичные: 1-2 на SQL (оконки, JOIN, оптимизация), 1-2 на Python (pandas, простые ETL). Часто живой кейс на cloud-данных: «дам тебе таблицу с событиями использования GPU-инстансов, посчитай расход и группировку по проектам клиентов». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python.
Подготовка: SQL для DE.
4. Продуктово-архитектурный кейс (90 минут)
Самая характерная секция. Кейс архитектурный: «спроектируй pipeline биллинга для AI-сервисов (GPU-инференс, токены LLM)», «как ты бы построил data lake для обучения foundation-моделей с версионированием и lineage», «как сделать feature store для ML Space с consistency online/offline». Нужно: уточнить требования, описать архитектуру, выбрать стек и обосновать, продумать data quality и monitoring, обсудить trade-off, заложить план рекавери. Сильный сигнал — учёт ML-специфики (train-serving skew, версионирование, lineage).
Подготовка: Spark deep dive, Monitoring и data quality.
5. Поведенческое + culture fit (45-60 минут)
С тимлидом или представителем R&D-команды. STAR-формат: расскажи про конфликт с заказчиком, факап в проде, спор по архитектуре. Параллельно проверяют соответствие Сбер-ценностям: клиентоцентричность, ответственность за результат, готовность к процессам.
6. Финал с руководителем (30 минут)
Финальная встреча: грейд, оффер. Корректировки по цифрам.
Особенности по командам
Билинг и финансовое DWH. Команда отвечает за корректность биллинга IaaS, PaaS и AI-сервисов: агрегация расхода до минуты, обработка скидок, формирование счетов. Стек — Greenplum + Airflow + dbt + специализированные расчётные движки. Челлендж — точность, reconciliation с биллингом, регуляторика. Подойдёт DE с financial-DWH или telco-биллинг опытом.
ML Space и data infrastructure для ML. Команда обеспечивает data layer для платформы ML Space: feature stores, эксперимент-трекинг данные, model registry, lineage от датасета до модели в проде. Стек — ClickHouse + Spark + кастомные feature-сервисы + интеграция с Sber AI. Челлендж — train-serving skew, версионирование больших датасетов, GDPR и compliance для клиентских данных. Подойдёт DE с ML-инфраструктура background.
AI Services data DE. Команда строит pipeline для AI-сервисов: SpeechKit-аналоги, Vision, OCR, LLM-инференс. Сбор обучающих данных, мониторинг качества, A/B-инфраструктура для моделей. Стек — Spark + Kafka + ClickHouse + специализированные хранилища для медиа. Подойдёт DE с интересом к ML и большим объёмам медиа-данных.
Capacity и infrastructure DWH. Команда занимается планированием капасити: прогноз нагрузки ЦОДов и GPU-кластеров, оптимизация миграций. Стек — ClickHouse + Spark + Airflow + dbt. Подойдёт DE с интересом к infra-аналитике.
Foundation models data lake (через Sber AI). Точечно: команда занимается data lake для обучения foundation-моделей Сбер (GigaChat и др.). Стек — Iceberg + Spark + Sber AI Lab tools. Челлендж — петабайты данных, версионирование, deduplication, lineage. Подойдёт DE с big-data ML background.
Что Cloud.ru ценит в DE
Production-опыт. История про pipeline в проде с SLA. «Сделал pipeline на Kaggle» — не история. «Запустил биллинг-pipeline AI-сервисов с миллиардами событий в день, P99 latency < 60 секунд, 99.95% доступность» — это история.
Cloud и ML контекст. Опыт в облаке, fintech или ML-инфраструктуре — большой плюс. Кандидаты из чистого e-com рассматриваются, но с пониманием, что им нужно доучивать cloud-специфику.
Сбер-совместимость. Это важно: Cloud.ru — часть группы, культурно ближе к Сберу. Кандидат, ругающий корпоративные процессы на собесе, получит -1.
Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём Kafka и Spark Streaming для биллинга AI-сервисов в real-time». Сильный ответ: «биллинг AI-сервисов — это batch с reconciliation и доказательной цепочкой. События инференса собираем через Kafka в data lake (Iceberg) → агрегация в ClickHouse материализованными представлениями для свежих дашбордов клиента → batch-pipeline в Airflow с dbt формирует счёт через 24 часа с обязательным reconciliation против сырых событий. Real-time дашборд в личном кабинете — отдельный поток, но финальный счёт — только после консистентной выверки. На каждом шаге audit trail для compliance».
Готовность к процессам. Cloud.ru — часть группы Сбер, процессов больше, чем у стартапа. Кандидат, который этого не понимает, рассматривается слабее.
Self-management. Команды небольшие, плотная коммуникация с продактами и инженерами. DE, который теряется без чёткого ТЗ, рассматривается слабее.
Как готовиться: план
За 5-7 недель до планируемого собеса:
- Неделя 1-2 — SQL deep dive и data modeling. Оконные функции, рекурсивные CTE, оптимизация запросов, partitioning, индексы, EXPLAIN, ClickHouse-специфика. Модели данных (звезда, снежинка, SCD типы, Data Vault). Прорешай 30 SQL Medium-Hard задач. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы по SQL-конструкциям и не путаться на простых вопросах.
- Неделя 3 — Современный data stack и ML-инфраструктура. Airflow patterns, dbt, Spark (оптимизация), Kafka + Debezium, базовые концепции feature stores и train-serving skew. Прочитай Feast docs.
- Неделя 4 — Cloud и AI-контекст. Прочитай блоги Cloud.ru, Yandex Cloud, статьи Сбер AI про ML-инфраструктуру. Запомни понятия: billing aggregation, GPU-инстанс, токены LLM, feature store, train-serving skew, model registry, lineage.
- Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: биллинг AI-сервисов, data lake для foundation models, feature store с consistency, B2B-dashboards, capacity GPU-кластеров. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Spark deep dive.
- Неделя 6-7 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с продактом или ML-командой, факап в проде, длинная миграция, история про точность биллинга.
Частые ошибки
Не думают про точность биллинга. Кандидат проектирует биллинг через streaming без reconciliation. В Cloud.ru это сразу красный флаг — финансы должны сходиться.
Хайпуют LLM-кейсами. Кандидат на DE-собесе пытается рассказать про fine-tuning LLM. Не понимает, что DE отвечает за data layer, а не за модели. Балл проседает.
Не разбираются в ML-инфраструктуре. «Что такое train-serving skew, feature store?» — кандидат теряется. Для ML-направлений Cloud.ru это база.
Игнорируют Сбер-процессы. Кандидат на финале говорит «не люблю согласования». В Cloud.ru они есть, и это нормально для крупной группы.
Не задают вопросы про SLA и объёмы. На кейсе сразу — стек, а не «сколько событий, какие SLA, какой retention, какие compliance требования». Это первый фильтр.
Связанные темы
- Собеседование на Data Engineer
- SQL для DE
- Spark deep dive
- Собеседование на Data Scientist в Cloud.ru
- Собеседование на Data Engineer в Selectel
FAQ
Удалёнка в Cloud.ru для DE?
Гибрид с офисом в Москве (Кутузовский / Сбер-кампус). Полная удалёнка возможна редко.
Зарплатные вилки 2026?
Middle DE: 280-420k. Senior: 420-650k. Lead/Staff — выше, особенно в ML-направлениях. Сбер-бонусная схема (годовая премия), опционов нет.
Нужен ли английский?
Базовый — для документации. Свободного говорящего не требуется. Для R&D и работы с международными библиотеками — желательнее.
Сколько этапов?
5-6 этапов, 4-6 недель из-за процессов группы Сбер. Для ролей с допусками — плюс время на СБ.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.