Собеседование на Data Engineer в X5 Group
Содержание:
Почему X5 — особенный работодатель для DE
X5 Group (Пятёрочка, Перекрёсток, Чижик) — крупнейший продуктовый ритейлер РФ. DE работает с данными сотен тысяч точек: чеки, ассортимент, склады, логистика, лояльность, реклама. Данные генерируются 24/7 десятками миллионов чеков в день, требуют real-time aggregation для оперативных решений (out-of-stock, promo-эффективность, ассортимент).
Особенность: ритейл-аналитика чувствительна к точности на уровне SKU × store × day. Архитектура многослойная: транзакционные системы → ODS → DWH → витрины. Активно используется ClickHouse для real-time, Spark для batch, Airflow для оркестрации, dbt для трансформаций. Подробнее — на странице карьеры X5.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Специфика X5:
- Был ли опыт с ритейл / e-com данными
- Знание SQL deep + Python
- Готовность работать с большим объёмом данных в проде
2. SQL и Python (60 минут)
SQL deep — оконки, оптимизация, EXPLAIN, partitioning. Python — pandas, общие алгоритмы.
3. Big Data + Spark (60-90 минут)
Главный этап. Spark на ритейл-данных: партиционирование чеков, JOIN с справочниками, агрегаты по SKU × store × day.
4. ClickHouse + dbt (45-60 минут)
ClickHouse для real-time агрегатов (продажи / out-of-stock / promo). dbt для версионирования трансформаций, ref-моделей, тестов.
5. Архитектура (60 минут)
«Спроектируй pipeline для real-time витрины продаж по магазину», «backfill промо-эффектов», «star schema для рекламной аналитики».
6. Поведенческое + финал
STAR-вопросы + стратегический разговор.
Что X5 ценит в DE
- Ритейл-mindset. SKU × store × day — атомарность данных.
- Spark на больших данных. Десятки TB ежемесячно.
- ClickHouse-опыт. Партиционирование, движки, materialized views.
- dbt. Версионирование, тесты, ref-модели.
- Performance. Оптимизация Spark / ClickHouse query — must.
Типичные задачи и кейсы
- «Спроектируй витрину продаж по SKU × store × day за 2 года»
- «Spark job на 5 TB чеков работает 6 часов. Цель — 1 час. Что оптимизировать»
- «ClickHouse materialized view для real-time агрегатов: дизайн»
- «Backfill промо-эффектов за прошлый квартал. Как избежать конфликтов»
- «JOIN чеков с item-справочником — skew по топ-SKU. Решение»
Как готовиться: план
- Spark deep. RDD, DataFrame, optimizer, shuffle, partitioning, skew, broadcast joins.
- ClickHouse. MergeTree, ReplicatedMergeTree, partitioning, materialized views.
- dbt. Models, ref, tests, snapshots.
- DWH. Star schema, SCD типов 1/2/3, slowly changing dimensions.
- SQL deep. Оконки, EXPLAIN, partitioning.
- Airflow. Airflow на собесе DE.
Частые ошибки
- Не понимать ритейл-метрики. «Sales per SQM», «basket size», «sell-through» — базовые понятия в ритейле.
- ClickHouse поверхностно. Без знания engines и partitioning — нерелевантный кандидат.
- Игнорировать dbt. В X5 dbt — стандарт трансформаций.
- Слабая SQL. Уровень senior.
Связанные темы
- Собеседование на DE в Яндекс
- Собеседование на DE в Ozon
- Spark на собесе DE
- ClickHouse и OLAP
- Airflow на собесе DE
FAQ
Сколько этапов в собеседовании на DE в X5?
Обычно 5-6: рекрутер → SQL/Python → big data → ClickHouse/dbt → архитектура → поведенческое + финал. Срок 4-6 недель.
Нужен ли опыт в ритейле?
Желателен. Релевантным считается e-com / маркетплейс / FMCG.
Какие инструменты главные?
Spark + ClickHouse + dbt + Airflow + Hadoop / Hive.
Спрашивают ли стриминг?
В отдельных командах (real-time витрины) — да.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.