Собеседование на Data Engineer в Cloud.ru

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Cloud.ru — особенный работодатель для DE

Cloud.ru (ранее SberCloud) — облачное подразделение группы Сбер, второй-третий по размеру публичный облачный провайдер РФ: IaaS, PaaS, managed-сервисы баз данных, ML-платформа ML Space, AI-сервисы поверх инфраструктуры Сбера (включая GigaChat, Kandinsky и другие модели группы). Для Data Engineer это специфический контекст: с одной стороны — классические облачные DE-задачи (биллинг, телеметрия, capacity), с другой — много вокруг AI/ML (data lake для обучения foundation-моделей, фичи для inference, мониторинг GPU-кластеров).

Главные DE-домены: построение биллинг-DWH (расход IaaS, PaaS, AI-сервисов с точностью до минуты); pipeline телеметрии серверов и GPU-кластеров; data lake для обучения foundation-моделей (большие датасеты, версионирование, lineage); data infrastructure для ML Space (фичи, эксперимент-трекинг, model registry); B2B-аналитика клиентов (dashboards в личном кабинете как product feature); внутренняя SaaS-аналитика; интеграция со стеком Сбер AI; регуляторная отчётность.

Стек: ClickHouse и Greenplum как основные DWH + специализированные инструменты группы Сбер; Kafka + Debezium для CDC; Airflow + Spark + dbt; data lake на S3-совместимых хранилищах + Iceberg/Hudi; Sber AI инфраструктура для ML-частей; Prometheus + Grafana + кастомные инструменты Сбер для observability. Архитектура — гибрид: классический энтерпрайз плюс активные ML-инициативы.

Актуальные вакансии — на hh.ru и сайте Cloud.ru.

Информация основана на публичных источниках и опыте кандидатов. Команды Cloud.ru используют разные процессы — формат и этапы зависят от направления, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 4-6 недель, 5-6 этапов. Процесс ближе к Сберу: HR, тестовое (часто), техническое интервью, продуктово-архитектурный кейс, поведенческое, финал. Для ролей с допусками к гос-облаку — расширенная СБ-проверка.

1. HR-скрининг (30-45 минут)

Рекрутер уточняет: production-опыт DE (от 2 лет, желательно с большими объёмами или ML-инфраструктурой), знание классического DWH и современного data stack, мотивацию идти в Cloud.ru, ожидания по компенсации и формату (Москва, Кутузовский, гибрид). Готовь питч на 90 секунд про самый зрелый production-pipeline.

2. Техническое интервью / SQL и архитектура (60-90 минут)

Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, рекурсивные CTE, оптимизация, partitioning, индексы, EXPLAIN, ClickHouse и Greenplum специфика), модели данных (звезда, снежинка, SCD типы, Data Vault — для биллинга), batch vs streaming, CDC (Debezium), data quality, data lineage. Для ML-направлений — отдельный блок про feature stores, train-serving skew, версионирование данных и моделей.

Подготовка: SQL для DE, Data modeling, Kafka streaming.

3. Python + SQL live coding (60-90 минут)

Задачи прагматичные: 1-2 на SQL (оконки, JOIN, оптимизация), 1-2 на Python (pandas, простые ETL). Часто живой кейс на cloud-данных: «дам тебе таблицу с событиями использования GPU-инстансов, посчитай расход и группировку по проектам клиентов». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python.

Подготовка: SQL для DE.

4. Продуктово-архитектурный кейс (90 минут)

Самая характерная секция. Кейс архитектурный: «спроектируй pipeline биллинга для AI-сервисов (GPU-инференс, токены LLM)», «как ты бы построил data lake для обучения foundation-моделей с версионированием и lineage», «как сделать feature store для ML Space с consistency online/offline». Нужно: уточнить требования, описать архитектуру, выбрать стек и обосновать, продумать data quality и monitoring, обсудить trade-off, заложить план рекавери. Сильный сигнал — учёт ML-специфики (train-serving skew, версионирование, lineage).

Подготовка: Spark deep dive, Monitoring и data quality.

5. Поведенческое + culture fit (45-60 минут)

С тимлидом или представителем R&D-команды. STAR-формат: расскажи про конфликт с заказчиком, факап в проде, спор по архитектуре. Параллельно проверяют соответствие Сбер-ценностям: клиентоцентричность, ответственность за результат, готовность к процессам.

6. Финал с руководителем (30 минут)

Финальная встреча: грейд, оффер. Корректировки по цифрам.

Особенности по командам

Билинг и финансовое DWH. Команда отвечает за корректность биллинга IaaS, PaaS и AI-сервисов: агрегация расхода до минуты, обработка скидок, формирование счетов. Стек — Greenplum + Airflow + dbt + специализированные расчётные движки. Челлендж — точность, reconciliation с биллингом, регуляторика. Подойдёт DE с financial-DWH или telco-биллинг опытом.

ML Space и data infrastructure для ML. Команда обеспечивает data layer для платформы ML Space: feature stores, эксперимент-трекинг данные, model registry, lineage от датасета до модели в проде. Стек — ClickHouse + Spark + кастомные feature-сервисы + интеграция с Sber AI. Челлендж — train-serving skew, версионирование больших датасетов, GDPR и compliance для клиентских данных. Подойдёт DE с ML-инфраструктура background.

AI Services data DE. Команда строит pipeline для AI-сервисов: SpeechKit-аналоги, Vision, OCR, LLM-инференс. Сбор обучающих данных, мониторинг качества, A/B-инфраструктура для моделей. Стек — Spark + Kafka + ClickHouse + специализированные хранилища для медиа. Подойдёт DE с интересом к ML и большим объёмам медиа-данных.

Capacity и infrastructure DWH. Команда занимается планированием капасити: прогноз нагрузки ЦОДов и GPU-кластеров, оптимизация миграций. Стек — ClickHouse + Spark + Airflow + dbt. Подойдёт DE с интересом к infra-аналитике.

Foundation models data lake (через Sber AI). Точечно: команда занимается data lake для обучения foundation-моделей Сбер (GigaChat и др.). Стек — Iceberg + Spark + Sber AI Lab tools. Челлендж — петабайты данных, версионирование, deduplication, lineage. Подойдёт DE с big-data ML background.

Что Cloud.ru ценит в DE

Production-опыт. История про pipeline в проде с SLA. «Сделал pipeline на Kaggle» — не история. «Запустил биллинг-pipeline AI-сервисов с миллиардами событий в день, P99 latency < 60 секунд, 99.95% доступность» — это история.

Cloud и ML контекст. Опыт в облаке, fintech или ML-инфраструктуре — большой плюс. Кандидаты из чистого e-com рассматриваются, но с пониманием, что им нужно доучивать cloud-специфику.

Сбер-совместимость. Это важно: Cloud.ru — часть группы, культурно ближе к Сберу. Кандидат, ругающий корпоративные процессы на собесе, получит -1.

Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём Kafka и Spark Streaming для биллинга AI-сервисов в real-time». Сильный ответ: «биллинг AI-сервисов — это batch с reconciliation и доказательной цепочкой. События инференса собираем через Kafka в data lake (Iceberg) → агрегация в ClickHouse материализованными представлениями для свежих дашбордов клиента → batch-pipeline в Airflow с dbt формирует счёт через 24 часа с обязательным reconciliation против сырых событий. Real-time дашборд в личном кабинете — отдельный поток, но финальный счёт — только после консистентной выверки. На каждом шаге audit trail для compliance».

Готовность к процессам. Cloud.ru — часть группы Сбер, процессов больше, чем у стартапа. Кандидат, который этого не понимает, рассматривается слабее.

Self-management. Команды небольшие, плотная коммуникация с продактами и инженерами. DE, который теряется без чёткого ТЗ, рассматривается слабее.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 5-7 недель до планируемого собеса:

  1. Неделя 1-2 — SQL deep dive и data modeling. Оконные функции, рекурсивные CTE, оптимизация запросов, partitioning, индексы, EXPLAIN, ClickHouse-специфика. Модели данных (звезда, снежинка, SCD типы, Data Vault). Прорешай 30 SQL Medium-Hard задач. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы по SQL-конструкциям и не путаться на простых вопросах.
  2. Неделя 3 — Современный data stack и ML-инфраструктура. Airflow patterns, dbt, Spark (оптимизация), Kafka + Debezium, базовые концепции feature stores и train-serving skew. Прочитай Feast docs.
  3. Неделя 4 — Cloud и AI-контекст. Прочитай блоги Cloud.ru, Yandex Cloud, статьи Сбер AI про ML-инфраструктуру. Запомни понятия: billing aggregation, GPU-инстанс, токены LLM, feature store, train-serving skew, model registry, lineage.
  4. Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: биллинг AI-сервисов, data lake для foundation models, feature store с consistency, B2B-dashboards, capacity GPU-кластеров. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Spark deep dive.
  5. Неделя 6-7 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с продактом или ML-командой, факап в проде, длинная миграция, история про точность биллинга.

Частые ошибки

Не думают про точность биллинга. Кандидат проектирует биллинг через streaming без reconciliation. В Cloud.ru это сразу красный флаг — финансы должны сходиться.

Хайпуют LLM-кейсами. Кандидат на DE-собесе пытается рассказать про fine-tuning LLM. Не понимает, что DE отвечает за data layer, а не за модели. Балл проседает.

Не разбираются в ML-инфраструктуре. «Что такое train-serving skew, feature store?» — кандидат теряется. Для ML-направлений Cloud.ru это база.

Игнорируют Сбер-процессы. Кандидат на финале говорит «не люблю согласования». В Cloud.ru они есть, и это нормально для крупной группы.

Не задают вопросы про SLA и объёмы. На кейсе сразу — стек, а не «сколько событий, какие SLA, какой retention, какие compliance требования». Это первый фильтр.

Связанные темы

FAQ

Удалёнка в Cloud.ru для DE?

Гибрид с офисом в Москве (Кутузовский / Сбер-кампус). Полная удалёнка возможна редко.

Зарплатные вилки 2026?

Middle DE: 280-420k. Senior: 420-650k. Lead/Staff — выше, особенно в ML-направлениях. Сбер-бонусная схема (годовая премия), опционов нет.

Нужен ли английский?

Базовый — для документации. Свободного говорящего не требуется. Для R&D и работы с международными библиотеками — желательнее.

Сколько этапов?

5-6 этапов, 4-6 недель из-за процессов группы Сбер. Для ролей с допусками — плюс время на СБ.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.