Собеседование на Data Engineer в Yandex Cloud

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Yandex Cloud — особенный работодатель для DE

Yandex Cloud — облачное подразделение Яндекса: IaaS, PaaS, managed-сервисы баз данных и Kubernetes, ML-платформа DataSphere, AI-сервисы (Yandex SpeechKit, Translate, Vision, foundation-модели семейства YandexGPT). Один из топ-3 публичных российских облачных провайдеров. Для Data Engineer это редкое и специфическое место: формально облако, фактически — часть огромной экосистемы Яндекса со всеми вытекающими (Яндекс-стек YT/YQL, Яндекс-процессы, Яндекс-планка по архитектуре).

Главные DE-домены: построение биллинг-DWH (расход IaaS, PaaS, AI-сервисов с точностью до минуты); pipeline телеметрии серверов и GPU-кластеров; data lake для обучения foundation-моделей (Yandex AI Foundation); data infrastructure для DataSphere (feature stores, model registry, experiment tracking); data pipelines для AI Services (SpeechKit, Vision, Translate, YandexGPT inference); B2B-аналитика клиентов (dashboards в личном кабинете); регуляторная отчётность.

Стек: YT (YTSaurus) — основной DWH/processing-движок Яндекса; ClickHouse для аналитики и real-time; YQL для аналитических запросов; Nirvana для пайплайнов и оркестрации; внутренние Яндекс-инструменты; Kafka и Logbroker для стримов; Kubernetes. Часть критичной инфраструктуры — на C++ (особенно low-latency serving для AI Services).

Актуальные вакансии — на hh.ru и сайте Яндекса.

Информация основана на публичных источниках и опыте кандидатов. Команды Yandex Cloud используют разные процессы — формат зависит от направления и грейда, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 4-6 недель, 5-7 этапов. Процесс — типичный «Яндекс-style»: алгоритмическая секция отдельно (DE-уровень планки), SQL и data design отдельно, продуктовый кейс с YT и ClickHouse-спецификой, поведенческое, финал.

1. HR-скрининг (30-45 минут)

Рекрутер уточняет: production-опыт DE (минимум 2 года, желательно с большими объёмами или ML-инфраструктурой), знакомство с YT/Hive/Spark, мотивацию идти в Yandex Cloud, ожидания по компенсации, готовность к гибридному графику. У Яндекса своя планка по алгоритмам — на скрининге об этом предупредят. Готовь питч на 90 секунд про самый зрелый production-pipeline.

2. Алгоритмы (60-75 минут)

Отдельная секция: 1-2 задачи уровня LeetCode Easy/Medium на алгоритмы и структуры данных в живом кодинге. Деревья, графы, динамика, hash, two pointers. Планка ниже, чем у DS/SWE, но базу спрашивают.

Подготовка: SQL для DE.

3. SQL deep dive (60-75 минут)

Большая секция по SQL. Темы: оконные функции, рекурсивные CTE, оптимизация запросов на огромных таблицах, partitioning, специфика YQL и ClickHouse. Часто живой кейс на event-данных: «дам тебе таблицу с событиями использования AI-сервисов, посчитай расход на токены LLM с разбивкой по клиенту и часу».

Подготовка: SQL для DE, ClickHouse и OLAP.

4. Data Design / архитектурный кейс (90 минут)

Самая сложная и характерная секция. Кейс: «спроектируй биллинг-pipeline для AI-сервисов Yandex Cloud (включая токены LLM и GPU-инференс)», «как ты бы построил data lake для обучения foundation-моделей с версионированием», «как сделать feature store для DataSphere с consistency online/offline». Нужно: уточнить требования, описать архитектуру, выбрать стек и обосновать YT vs Spark vs ClickHouse, продумать data quality и monitoring, обсудить trade-off, заложить план рекавери. Сильный сигнал — учёт масштаба Яндекса и стека: distribution, partition pruning, Logbroker.

Подготовка: Spark deep dive, Kafka streaming, Monitoring и data quality.

5. Поведенческое + культурный fit (45 минут)

С тимлидом и/или представителем команды. STAR-формат: конфликт с продактом, факап в проде, спор по архитектуре. Параллельно проверяют соответствие Yandex Values — ownership, фокус на пользе пользователю, готовность копать вглубь.

6. Production / scale (60 минут, опционально)

Для команд, связанных с AI-сервисами и инфраструктурой: вопросы про high-throughput pipelines, train-serving skew, мониторинг моделей в проде, инциденты.

7. Финал с руководителем (30 минут)

Финальная встреча: грейд, оффер. Корректировки по цифрам.

Особенности по командам

Биллинг-DWH. Команда отвечает за корректность биллинга IaaS, PaaS и AI-сервисов: агрегация расхода до минуты, обработка скидок, формирование счетов клиентам. Стек — YT + ClickHouse + Greenplum + Airflow + специализированные расчётные движки. Челлендж — точность (каждая копейка должна сходиться), reconciliation, разная модель ценообразования (GPU-час, токены LLM, IOPS). Подойдёт DE с financial-DWH опытом.

ML Platform / DataSphere data DE. Команда обеспечивает data layer для платформы DataSphere: feature stores, эксперимент-трекинг, model registry, lineage. Стек — YT + ClickHouse + кастомные feature-сервисы Яндекса. Челлендж — train-serving skew, версионирование больших датасетов, multi-tenant. Подойдёт DE с ML-инфраструктура background.

AI Services data DE (SpeechKit, Vision, Translate, YandexGPT). Команда строит data pipeline для AI Services: сбор обучающих данных, мониторинг качества, A/B-инфраструктура для моделей. Стек — Spark + Kafka + ClickHouse + специализированные хранилища для медиа. Челлендж — петабайты медиа, версионирование, оптимизация для GPU-инференса. Подойдёт DE с интересом к ML и большим объёмам медиа.

Foundation Models data lake (Yandex AI Foundation). Команда занимается data lake для foundation-моделей YandexGPT. Стек — YT + Spark + кастомные инструменты для обучения. Челлендж — петабайты данных, deduplication, lineage, токенизация. Подойдёт DE с big-data ML background.

Capacity и infrastructure DWH. Команда занимается планированием капасити, прогнозом нагрузки. Стек — ClickHouse + Spark + YT. Подойдёт DE с интересом к infra-аналитике.

Что Yandex Cloud ценит в DE

Алгоритмы — Яндекс-уровень (DE-планка). Без серьёзной алгоритмической подготовки можно отвалиться на code-секции. У DE планка ниже, чем у DS/SWE, но базу спрашивают. LeetCode Easy/Medium стабильно решаешь.

Production-опыт на масштабе. История про pipeline в проде на миллиардах событий в день. «Запустил event-pipeline на 2 миллиарда событий в день с SLA T+1 и schema-эволюцией» — это история.

Знакомство с Яндекс-стеком — большой плюс. Опыт работы с YT/YQL даёт существенное преимущество. Если не работал — туториалы Yandex Cloud по DataSphere и YTsaurus open-source помогут.

Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём Kafka + Spark Streaming + Iceberg для биллинга AI-сервисов». Сильный ответ: «биллинг AI-сервисов — это batch с reconciliation. События инференса собираем через Logbroker в YT → агрегация в ClickHouse с материализованными представлениями для свежих агрегатов клиента → batch-pipeline в Nirvana формирует счёт с обязательной reconciliation против сырых событий. Разная модель ценообразования (токены LLM, GPU-час, IOPS) решается через unified billing-схему с конфигурируемыми правилами агрегации. Iceberg — не часть стека Яндекса, можно рассмотреть как future state, но не для текущей задачи».

Готовность к Яндекс-процессам. Согласования, code review в Arcanum, релиз-окна. Кандидаты, которые ругают процессы на собесе, получают -1.

Self-management. Команды разделены по доменам, plenty of autonomy. DE, который теряется без ежедневной обратной связи, рассматривается слабее.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 6-8 недель до планируемого собеса:

  1. Неделя 1-2 — Алгоритмы базовые + SQL deep dive. LeetCode Easy/Medium 20+ задач плюс 30 SQL Medium-Hard на оконки, рекурсивные CTE, оптимизацию. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы по конструкциям и не путаться в простых задачах.
  2. Неделя 3 — YT, YQL и Яндекс-стек. Прочитай YTsaurus open-source documentation, статьи Яндекса по DWH и DataSphere. Запомни понятия: YT-таблицы, dynamic vs static, MapReduce-операции, sorted tables, Logbroker, Nirvana.
  3. Неделя 4 — ClickHouse и стрим-стек. ClickHouse deep dive, Kafka + Debezium, Logbroker. Прорешай 20 ClickHouse-SQL задач.
  4. Неделя 5 — Big data и архитектурные кейсы. Прорешай 5-6 кейсов: биллинг AI-сервисов, data lake для foundation models, feature store для DataSphere, capacity GPU-кластеров. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Spark deep dive.
  5. Неделя 6 — ML-инфраструктура и compliance. Train-serving skew, feature stores, model registry, audit trail. Прочитай Feast docs и аналоги.
  6. Неделя 7-8 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с продактом, факап в проде, история про масштабирование, кейс про оптимизацию.

Частые ошибки

Не знают YT/YQL. Кандидат на System Design рассказывает про Spark + Iceberg, не упоминая YT. В Яндексе это базовый стек. Поверхностное знание ожидается.

Хайпуют стримингом везде. Кандидат проектирует биллинг через Streaming. Не упоминает, что для финансовой отчётности важна reconciliation, а не скорость.

Слабая алгоритмическая база. В Yandex Cloud DE-секция не такая жёсткая, как у DS/SWE, но базу спрашивают.

Игнорируют compliance. В YC есть гос-облако, audit trail и immutability важны для определённых клиентов. Кандидат, который этого не упоминает, теряет балл.

Не задают вопросы про объёмы и потребителей. На кейсе сразу — стек, а не «сколько событий, какие SLA, какие потребители данных». Это первый фильтр.

Связанные темы

FAQ

Удалёнка в Yandex Cloud для DE?

Чаще гибрид с офисом в Москве (БЦ «Красная Роза», «Аврора») или Санкт-Петербурге. Полная удалёнка возможна для senior+ при согласовании.

Зарплатные вилки 2026?

Middle DE: 300-460k. Senior: 460-720k. Staff/Lead — выше. Опционы/RSU в Яндексе сейчас не для всех — уточняй у рекрутера.

Английский нужен?

Базовый — желательно (читать статьи, документацию). Свободный говорящий не обязателен.

Сколько этапов?

5-7 этапов, 4-6 недель от первого скрининга до оффера. Если процесс затягивается до 2 месяцев — нормально, согласований много.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — команды могут менять процесс.