Собеседование на Data Engineer в X5 Group

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему X5 — особенный работодатель для DE

X5 Group (Пятёрочка, Перекрёсток, Чижик) — крупнейший продуктовый ритейлер РФ. DE работает с данными сотен тысяч точек: чеки, ассортимент, склады, логистика, лояльность, реклама. Данные генерируются 24/7 десятками миллионов чеков в день, требуют real-time aggregation для оперативных решений (out-of-stock, promo-эффективность, ассортимент).

Особенность: ритейл-аналитика чувствительна к точности на уровне SKU × store × day. Архитектура многослойная: транзакционные системы → ODS → DWH → витрины. Активно используется ClickHouse для real-time, Spark для batch, Airflow для оркестрации, dbt для трансформаций. Подробнее — на странице карьеры X5.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Специфика X5:

  • Был ли опыт с ритейл / e-com данными
  • Знание SQL deep + Python
  • Готовность работать с большим объёмом данных в проде

2. SQL и Python (60 минут)

SQL deep — оконки, оптимизация, EXPLAIN, partitioning. Python — pandas, общие алгоритмы.

3. Big Data + Spark (60-90 минут)

Главный этап. Spark на ритейл-данных: партиционирование чеков, JOIN с справочниками, агрегаты по SKU × store × day.

4. ClickHouse + dbt (45-60 минут)

ClickHouse для real-time агрегатов (продажи / out-of-stock / promo). dbt для версионирования трансформаций, ref-моделей, тестов.

5. Архитектура (60 минут)

«Спроектируй pipeline для real-time витрины продаж по магазину», «backfill промо-эффектов», «star schema для рекламной аналитики».

6. Поведенческое + финал

STAR-вопросы + стратегический разговор.

Что X5 ценит в DE

  • Ритейл-mindset. SKU × store × day — атомарность данных.
  • Spark на больших данных. Десятки TB ежемесячно.
  • ClickHouse-опыт. Партиционирование, движки, materialized views.
  • dbt. Версионирование, тесты, ref-модели.
  • Performance. Оптимизация Spark / ClickHouse query — must.

Типичные задачи и кейсы

  • «Спроектируй витрину продаж по SKU × store × day за 2 года»
  • «Spark job на 5 TB чеков работает 6 часов. Цель — 1 час. Что оптимизировать»
  • «ClickHouse materialized view для real-time агрегатов: дизайн»
  • «Backfill промо-эффектов за прошлый квартал. Как избежать конфликтов»
  • «JOIN чеков с item-справочником — skew по топ-SKU. Решение»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Spark deep. RDD, DataFrame, optimizer, shuffle, partitioning, skew, broadcast joins.
  2. ClickHouse. MergeTree, ReplicatedMergeTree, partitioning, materialized views.
  3. dbt. Models, ref, tests, snapshots.
  4. DWH. Star schema, SCD типов 1/2/3, slowly changing dimensions.
  5. SQL deep. Оконки, EXPLAIN, partitioning.
  6. Airflow. Airflow на собесе DE.

Частые ошибки

  • Не понимать ритейл-метрики. «Sales per SQM», «basket size», «sell-through» — базовые понятия в ритейле.
  • ClickHouse поверхностно. Без знания engines и partitioning — нерелевантный кандидат.
  • Игнорировать dbt. В X5 dbt — стандарт трансформаций.
  • Слабая SQL. Уровень senior.

Связанные темы

FAQ

Сколько этапов в собеседовании на DE в X5?

Обычно 5-6: рекрутер → SQL/Python → big data → ClickHouse/dbt → архитектура → поведенческое + финал. Срок 4-6 недель.

Нужен ли опыт в ритейле?

Желателен. Релевантным считается e-com / маркетплейс / FMCG.

Какие инструменты главные?

Spark + ClickHouse + dbt + Airflow + Hadoop / Hive.

Спрашивают ли стриминг?

В отдельных командах (real-time витрины) — да.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.