Собеседование на Data Engineer в Яндекс Маркет

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Яндекс Маркет — особенный работодатель для DE

Яндекс Маркет — крупнейший российский e-commerce-маркетплейс группы Яндекс: десятки миллионов активных пользователей в месяц, сотни тысяч продавцов, миллионы SKU, интеграция с Яндекс Плюсом, доставкой Яндекс Go и логистикой группы. Для Data Engineer это очень специфический работодатель: классические маркетплейс-задачи (товарный поиск, ранжирование, антифрод, операционная аналитика) на фоне Яндекс-стека и Яндекс-планки по алгоритмам и системному дизайну. Объёмы — миллиарды событий в день, тысячи дашбордов, десятки команд-потребителей данных.

Главные DE-домены: построение event-DWH (клики, показы, корзины, заказы, выдачи), pipeline ранжирования и рекомендаций (фичи продавцов, товаров, пользователей), real-time витрины для антифрода (накрутки, фейковые отзывы, мошеннические транзакции), seller-аналитика (витрины для продавцов как product feature), CRM и lifetime-аналитика, прогноз спроса для продавцов, прогноз доставки, NLP-pipeline для категоризации и обработки отзывов, регуляторная и операционная отчётность.

Стек: YT (YTSaurus) — основной DWH/processing-движок Яндекса; ClickHouse для аналитики и real-time; PostgreSQL для оперативных данных; Nirvana для пайплайнов и оркестрации; YQL для аналитических запросов; внутренние Яндекс-инструменты для трекинга; Kafka и Logbroker для стримов; Kubernetes. Часть критичной инфраструктуры — на C++ (особенно low-latency serving для ранжирования и антифрода).

Актуальные вакансии — на hh.ru и сайте Яндекса.

Информация основана на публичных источниках и опыте кандидатов. Команды Яндекс Маркета используют разные процессы — формат зависит от направления и грейда, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 4-6 недель, 5-7 этапов. Процесс — типичный «Яндекс-style»: алгоритмическая секция отдельно, SQL и data design отдельно, продуктовый кейс с YT и ClickHouse-спецификой, поведенческое, финал. У DE-направлений алгоритмическая планка пониже, чем у DS/SWE, но не нулевая.

1. HR-скрининг (30-45 минут)

Рекрутер уточняет: production-опыт DE (минимум 2 года, желательно с большими событиями или e-com), знакомство с YT/Hive/Spark, мотивацию идти именно в Яндекс Маркет, ожидания по компенсации, готовность к гибридному графику. Готовь питч на 90 секунд про самый зрелый production-pipeline с цифрами по объёмам и SLA.

2. Алгоритмы (60-75 минут)

Отдельная секция: 1-2 задачи уровня LeetCode Easy/Medium на алгоритмы и структуры данных в живом кодинге. Деревья (BST, обход), графы (BFS/DFS), динамика, hash, two pointers, sorting. Планка ниже, чем у DS/SWE, но базу спрашивают.

Подготовка: SQL для DE.

3. SQL deep dive (60-75 минут)

Большая секция по SQL. Темы: оконные функции, рекурсивные CTE, оптимизация запросов на огромных таблицах, partitioning, специфика YQL и ClickHouse (в т.ч. argMax, sequenceCount, runningAccumulate в CH). Часто живой кейс на event-данных: «дам тебе таблицу кликов и заказов, посчитай конверсию по продавцам с разбивкой по дню и категории».

Подготовка: SQL для DE, ClickHouse и OLAP.

4. Data Design / архитектурный кейс (90 минут)

Самая сложная и характерная секция. Кейс: «спроектируй event-DWH для маркетплейса с миллиардом событий в день», «как ты бы построил pipeline для feature store ранжирования с consistency между online и offline», «как сделать real-time антифрод-витрину для отзывов и накруток рейтинга». Нужно: уточнить требования, описать архитектуру (источники → транспорт → процессинг → витрина), выбрать стек и обосновать выбор YT vs Spark vs ClickHouse, продумать data quality и monitoring, обсудить trade-off batch vs streaming, заложить план рекавери. Сильный сигнал — учёт масштаба Яндекса: distribution, partition pruning, broadcast-join проблемы.

Подготовка: Spark deep dive, Kafka streaming, Monitoring и data quality.

5. Поведенческое + культурный fit (45 минут)

С тимлидом и/или представителем команды. STAR-формат: конфликт с продактом, факап в проде, спор по архитектуре. Параллельно проверяют соответствие Yandex Values — ownership, фокус на пользе пользователю, готовность копать вглубь.

6. Финал с руководителем (30 минут)

Финальная встреча: грейд, оффер, обсуждение проектов и команды. Корректировки по цифрам.

Особенности по командам

Event-DWH / data platform. Команда строит и поддерживает основной event-DWH: клики, показы, заказы, отзывы, события продавцов. Стек — YT (YTSaurus) + ClickHouse + Nirvana + YQL + кастомные Яндекс-инструменты. Челлендж — миллиарды событий в день, schema evolution, поддержка большого числа потребителей. Подойдёт DE с big-data DWH-опытом и готовностью к экосистеме Яндекса.

Real-time витрины и стриминг. Команда строит real-time pipeline для антифрода, операционных дашбордов, оперативного ранжирования. Стек — Logbroker (Kafka-flavor Яндекса) + ClickHouse + кастомные стриминговые сервисы. Челлендж — exactly-once, latency < сотен мс для антифрода, идемпотентность. Подойдёт DE с background в стримах.

Feature stores и ML-инфраструктура. Команда обеспечивает фичи для ранжирования и рекомендаций: offline batch + online lookup, consistency online/offline, версионирование фичей. Стек — YT + ClickHouse + Redis + кастомные feature-инструменты Яндекса. Челлендж — train-serving skew, миллионы фичей, регулярные пересборки. Подойдёт DE с интересом к ML-инфраструктуре.

Seller-аналитика и B2B DE. Команда строит data products для продавцов: dashboards, прогноз спроса, рекомендации по ассортименту. Стек — YT + ClickHouse + dbt-style инструменты + API для продавцов. Челлендж — multi-tenant продукт с строгими гарантиями приватности данных продавцов. Подойдёт DE с B2B SaaS-фоном.

Регуляторная и операционная отчётность. Команда отвечает за финансовые отчёты, кассовые отчёты, операционные показатели. Стек — YT + ClickHouse + кастомные интеграции. Подойдёт DE с financial-DWH опытом.

Что Яндекс Маркет ценит в DE

Production-опыт на масштабе. История про pipeline в проде на миллиардах событий в день. «Сделал pipeline на Kaggle» — не история. «Запустил event-pipeline на 2 миллиарда событий в день с SLA T+1 и schema-эволюцией каждую неделю» — это история.

Понимание распределённых вычислений. Кандидат, который понимает distribution keys, partition pruning, broadcast joins, skewed partitions — сильный сигнал. Если не работал с big-data — освежи концепции до собеса.

Знакомство с Яндекс-стеком — плюс. Опыт работы с YT/YQL даёт существенное преимущество. Если не работал — туториалы Yandex Cloud по DataSphere и YTsaurus open-source помогут.

Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём Kafka + Spark Streaming + Iceberg для event-DWH маркетплейса». Сильный ответ: «event-DWH Яндекс Маркета — это YT (миллиарды событий), для real-time — ClickHouse с TTL и материализованными представлениями, для оперативной интеграции — Logbroker. Schema-эволюция через явные миграции с обратной совместимостью. На каждом шаге — мониторинг lag-а consumer-ов, проверка идемпотентности, контракты с потребителями данных через каталог. Iceberg — не часть стека Яндекса, можно рассмотреть как future state, но не для текущей задачи».

Готовность к Яндекс-процессам. Согласования, code review в Arcanum, релиз-окна. Кандидаты, которые ругают процессы на собесе, получают -1.

Self-management. Команды разделены по доменам, plenty of autonomy. DE, который теряется без ежедневной обратной связи, рассматривается слабее.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 6-8 недель до планируемого собеса:

  1. Неделя 1-2 — Алгоритмы базовые + SQL deep dive. LeetCode Easy/Medium 20+ задач, плюс 30 SQL Medium-Hard на оконки, рекурсивные CTE, оптимизацию. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы по основным конструкциям и не путаться в простых задачах.
  2. Неделя 3 — YT, YQL и Яндекс-стек. Прочитай YTsaurus open-source documentation, статьи Яндекса по DWH, обзоры по Nirvana. Запомни понятия: YT-таблицы, dynamic vs static, MapReduce-операции, sorted tables, Logbroker.
  3. Неделя 4 — ClickHouse deep dive. Особенности MergeTree, материализованные представления, projections, шардинг, репликация. Прорешай 20 ClickHouse-SQL задач.
  4. Неделя 5 — Big data и архитектурные кейсы. Прорешай 5-6 кейсов: event-DWH 2B событий в день, feature store с consistency, real-time антифрод, seller-аналитика с multi-tenant. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Spark deep dive.
  5. Неделя 6 — Стриминг и feature stores. Kafka (topics, partitions, exactly-once), Logbroker-аналоги, Feast или кастомные feature stores, train-serving skew.
  6. Неделя 7-8 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с продактом, факап в проде, история про масштабирование, кейс про оптимизацию.

Частые ошибки

Не знают YT/YQL. Кандидат на System Design рассказывает про Spark + Iceberg, не упоминая YT. В Яндексе это базовый стек. Хотя бы поверхностное знание ожидается.

Хайпуют стримингом везде. Кандидат проектирует event-DWH как pure streaming. Не упоминает, что для аналитики batch с T+1 SLA достаточно, streaming оставляется для real-time-кейсов.

Слабая алгоритмическая база. В Яндекс Маркете DE-секция не такая жёсткая, как у DS/SWE, но базу спрашивают. Кандидат без подготовки часто валится на простой задаче на деревья.

Не разбираются в e-com метриках. «Что такое GMV, CVR, AOV, NDCG для ранжирования?» — кандидат теряется. На архитектурном кейсе это сразу видно.

Не задают вопросы про SLA и потребителей. На кейсе сразу — стек, а не «кто потребители, какие SLA, какая schema evolution, как deprecate старые поля». Это первый фильтр.

Связанные темы

FAQ

Удалёнка в Яндекс Маркете для DE?

Чаще гибрид с офисом в Москве (БЦ «Красная Роза», «Аврора») или Санкт-Петербурге. Полная удалёнка возможна для senior+ при согласовании с тимлидом, но не правило.

Зарплатные вилки 2026?

Middle DE: 320-490k. Senior: 490-780k. Staff/Lead — выше. Опционы/RSU в Яндексе сейчас не для всех — уточняй у рекрутера.

Английский нужен?

Базовый — желательно (читать статьи, документацию). Свободный говорящий не обязателен.

Сколько этапов?

5-7 этапов, 4-6 недель от первого скрининга до оффера. Если процесс затягивается до 2 месяцев — нормально, согласований много.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — команды могут менять процесс.