Собеседование на Data Engineer в Ленту

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Лента — особенный работодатель для DE

Лента — один из крупнейших российских ритейлеров: больше 700 магазинов разных форматов (гипермаркеты, супермаркеты, «у дома», дискаунтерные форматы), e-com через приложение, программа лояльности с десятками миллионов держателей карт. Для Data Engineer это работа в зрелой ритейл-инфраструктуре с активной модернизацией стека: классические DWH-задачи и интеграции с операционкой, плюс новые проекты по data lake и стримингу для e-com и оперативной аналитики.

Главные DE-домены: построение чек-DWH (миллионы чеков в день из 700+ точек), мастер-данные ассортимента, цен, поставщиков, мультиформатный учёт (одна SKU может продаваться в гипермаркете и в «у дома» с разными правилами), pipeline для прогноза спроса и assortment planning по форматам, CRM-витрины и программа лояльности, регуляторная отчётность (касса, НДС, маркировка «Честный знак»), e-com и доставка (online-заказы, маршрутизация), логистика между РЦ и магазинами разных форматов.

Стек: Greenplum как основной DWH + ClickHouse для real-time витрин + Oracle/MS SQL как источники из core-систем; Airflow + dbt + Spark; Kafka + Debezium для CDC; data lake на S3-совместимых хранилищах; собственные инструменты + Grafana для observability. Часть legacy на Informatica и SAS, активно мигрируется. DE-команда крупная, плотная коммуникация с product- и операционными командами.

Актуальные вакансии — на hh.ru и сайте Ленты.

Информация основана на публичных источниках и опыте кандидатов. Команды Ленты используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 3-5 недель, 4-5 этапов. Процесс прагматичный: HR, техническое интервью, кодинг и SQL, продуктово-архитектурный кейс, финал. Алгоритмическая планка средняя, без LeetCode Hard.

1. HR-скрининг (30-45 минут)

Рекрутер уточняет: production-опыт DE (от 1.5-2 лет, желательно с табличными объёмами или ритейл-контекстом), знание классического DWH и современного data stack, мотивацию идти в Ленту (а не Магнит/X5/Wildberries), ожидания по компенсации и формату (Санкт-Петербург и Москва — основные HR-центры). Готовь питч на 90 секунд про самый зрелый production-pipeline.

2. Техническое интервью / SQL и архитектура (60-90 минут)

Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, рекурсивные CTE, оптимизация запросов на больших таблицах, partitioning, индексы, EXPLAIN, специфика MPP-СУБД Greenplum), модели данных (звезда, снежинка, SCD типы, Data Vault), batch vs streaming, CDC (Debezium), data quality (тесты в dbt, Great Expectations), data lineage. Специфический вопрос: «как ты бы построил DWH с поддержкой двух разных форматов магазинов, где у одной SKU могут быть разные цены и промо».

Подготовка: SQL для DE, Data modeling, dbt и моделирование.

3. Python + SQL live coding (60 минут)

Задачи прагматичные: 1-2 на SQL (оконки, JOIN, оптимизация на больших таблицах — часто чеки или промо-данные), 1-2 на Python (pandas, простые ETL). Часто живой кейс: «дам тебе схему чеков и промо-кампаний, посчитай эффект промо на чек по форматам магазинов». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python.

Подготовка: SQL для DE.

4. Продуктово-архитектурный кейс (60-90 минут)

Самая характерная секция. Кейс архитектурный: «спроектируй pipeline прогноза спроса с учётом двух форматов магазинов», «как ты бы построил CDC из мульти-форматного POS», «как сделать витрину для e-com доставки с интеграцией складских остатков». Нужно: уточнить требования, описать архитектуру, выбрать стек и обосновать, продумать data quality и мониторинг, обсудить trade-off, заложить план рекавери. Сильный сигнал — учёт мульти-форматности: разные правила цен, промо, ассортимента.

Подготовка: Airflow patterns, Monitoring и data quality.

5. Финал с тимлидом / руководителем направления (45 минут)

Беседа с тимлидом или руководителем. Проверяют поведенческие истории (STAR), отношение к корпоративной работе с категорийщиками и операционкой, готовность к ответственности за регулярные пайплайны, обсуждают грейд.

Особенности по командам

Чек-DWH и фактическая аналитика. Команда занимается построением и поддержкой чек-DWH, мастер-данных ассортимента и цен. Стек — Greenplum + ClickHouse + Airflow + dbt + Spark. Челлендж — мульти-формат: одна SKU в гипермаркете и в «у дома» имеет разные характеристики, нужны корректные модели данных. Подойдёт кандидатам с DWH-опытом и пониманием размерных моделей.

Прогноз спроса и assortment-pipeline. Команда строит pipeline для прогноза спроса по форматам, feature engineering для ML-моделей assortment planning. Стек — Spark + Python + dbt + Greenplum. Челлендж — разные паттерны спроса по форматам, train-serving consistency, длинные хвосты SKU. Подойдёт DE с background в supply-chain analytics.

CRM и программа лояльности. Команда строит витрины программы лояльности: десятки миллионов клиентов, поведенческие сигналы, single customer view, сегментация для маркетинга. Стек — dbt + Greenplum + ClickHouse + Airflow + интеграция с CDP. Подойдёт DE с опытом в CRM или CDP.

E-com и доставка DE. Команда занимается данными приложения и доставки: онлайн-заказы, остатки в реальном времени, маршрутизация. Стек — Kafka + ClickHouse + dbt + кастомные стриминговые сервисы. Челлендж — синхронизация остатков между магазинами и складами доставки. Подойдёт DE с опытом в e-com или real-time стек.

Регуляторная отчётность и маркировка. Команда отвечает за регулярные отчёты ФНС, отчётность по маркировке (ЧЗ), кассовые отчёты. Стек — dbt + Greenplum + специализированные интеграции. Челлендж — изменения регуляторных требований, длинные циклы тестирования. Подойдёт DE с regulatory-опытом.

Что Лента ценит в DE

Production-опыт на масштабе. История про pipeline в проде на миллионах событий в день. «Запустил чек-DWH с поддержкой 700 точек, SLA T+1, 99.9% доступность» — это история.

Понимание ритейл-бизнеса. Базовые понятия (SKU, ассортиментная матрица, out-of-stock, маржа, оборот, оборачиваемость, корзина, ABC-анализ, формат магазина) должны быть знакомы. На кейсе сразу видно.

Прагматизм над хайпом. В Ленте ценят «давай попробуем dbt + Greenplum», а не «возьмём data mesh с federated queries». Кандидат, который предлагает экзотический стек без обоснования, получит -1.

Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём Kafka и Spark Streaming для чек-DWH, чтобы было real-time». Сильный ответ: «чек-DWH — это batch с T+1 SLA для основной массы аналитики. Возьму Airflow + dbt + Greenplum + ClickHouse для оперативных дашбордов. Учитывая мульти-формат: модель данных с conformed dimensions для SKU, но format-specific атрибуты в дополнительных таблицах. Reconciliation по выручке и количеству чеков обязательно с агрегатами кассы. Streaming — только для оперативного мониторинга остатков и e-com, основной DWH остаётся batch».

Готовность к корпоративной среде. Лента — крупный ритейл с регламентами. Кандидат, который ругает «бюрократию» в принципе, рискует получить -1.

Self-management. Команды распределённые между Питером и Москвой. DE, который не умеет работать в распределённом формате, рассматривается слабее.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 4-6 недель до планируемого собеса:

  1. Неделя 1-2 — SQL deep dive и data modeling. Оконные функции, рекурсивные CTE, оптимизация запросов на больших таблицах, partitioning, индексы, EXPLAIN. Модели данных (звезда, снежинка, SCD типы, Data Vault). Прорешай 30 SQL Medium-Hard задач. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы закрыть пробелы по основным конструкциям и не путаться в простых вопросах.
  2. Неделя 3 — Современный data stack. Airflow patterns (sensors, dynamic DAGs, backfill, XCom), dbt (модели, тесты, snapshots, sources), Spark (оптимизация, partitioning, shuffle), Kafka + Debezium для CDC, ClickHouse для OLAP.
  3. Неделя 4 — Ритейл-контекст. Прочитай блоги X5 Tech, Wildberries Tech, статьи по retail-DWH. Запомни понятия: SKU, ассортиментная матрица, out-of-stock, оборачиваемость, эластичность, ABC-анализ, мульти-формат, conformed dimension, маркировка ЧЗ.
  4. Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: чек-DWH с мульти-форматом, CDC с разных POS, single customer view, e-com доставка с интеграцией остатков, маркировка ЧЗ. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Airflow patterns.
  5. Неделя 6 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с категорийным менеджером, факап в проде, длинная миграция legacy, история про масштабирование.

Частые ошибки

Хайпуют стримингом везде. Кандидат предлагает Kafka Streaming для чек-DWH. Не упоминает, что для основной аналитики batch с T+1 SLA достаточно, а streaming оставляется для оперативного мониторинга.

Игнорируют мульти-формат. Кандидат проектирует «как для одного формата». Лента — это две разные модели спроса в одном бизнесе. Если в ответе нет ни слова про мульти-формат — балл проседает.

Не думают про reconciliation. Кандидат строит pipeline без сверки выручки с кассой. В ритейле расхождение это претензия от бухгалтерии и КИП.

Не разбираются в ритейл-метриках. «Что такое оборачиваемость, ABC-анализ, out-of-stock?» — кандидат теряется. На архитектурном кейсе это сразу видно.

Не задают вопросы про объёмы и форматы. На кейсе сразу — стек, а не «сколько чеков, какие POS, какие SLA, какой мульти-формат». Это первый фильтр.

Связанные темы

FAQ

Удалёнка в Ленте для DE?

Гибрид с офисами в Санкт-Петербурге и Москве. Полная удалёнка возможна для senior+ при согласовании. Часть команд исторически больше в Питере, часть в Москве.

Зарплатные вилки 2026?

Middle DE: 230-370k. Senior: 370-580k. Lead/Staff — выше, особенно в DWH и стриминг-направлениях. Бонусная схема привязана к KPI команды.

Нужен ли английский?

Базовый — для документации. Свободного говорящего не требуется, основная команда русскоязычная.

Сколько этапов?

4-5 этапов, 3-5 недель от первого скрининга до оффера. Процесс прагматичный, без избыточных согласований.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам и локации.