13 мая 2026 г.·4 мин чтения

Собеседование на Data Engineer в X5 Group

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Содержание:

Почему X5 — особенный работодатель для DE
Этапы собеседования
Что X5 ценит в DE
Типичные задачи и кейсы
Как готовиться: план
Частые ошибки
Связанные темы
FAQ

Почему X5 — особенный работодатель для DE

X5 Group (Пятёрочка, Перекрёсток, Чижик) — крупнейший продуктовый ритейлер РФ. DE работает с данными сотен тысяч точек: чеки, ассортимент, склады, логистика, лояльность, реклама. Данные генерируются 24/7 десятками миллионов чеков в день, требуют real-time aggregation для оперативных решений (out-of-stock, promo-эффективность, ассортимент).

Особенность: ритейл-аналитика чувствительна к точности на уровне SKU × store × day. Архитектура многослойная: транзакционные системы → ODS → DWH → витрины. Активно используется ClickHouse для real-time, Spark для batch, Airflow для оркестрации, dbt для трансформаций. Подробнее — на странице карьеры X5.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Специфика X5:

Был ли опыт с ритейл / e-com данными
Знание SQL deep + Python
Готовность работать с большим объёмом данных в проде

2. SQL и Python (60 минут)

SQL deep — оконки, оптимизация, EXPLAIN, partitioning. Python — pandas, общие алгоритмы.

3. Big Data + Spark (60-90 минут)

Главный этап. Spark на ритейл-данных: партиционирование чеков, JOIN с справочниками, агрегаты по SKU × store × day.

4. ClickHouse + dbt (45-60 минут)

ClickHouse для real-time агрегатов (продажи / out-of-stock / promo). dbt для версионирования трансформаций, ref-моделей, тестов.

5. Архитектура (60 минут)

«Спроектируй pipeline для real-time витрины продаж по магазину», «backfill промо-эффектов», «star schema для рекламной аналитики».

6. Поведенческое + финал

STAR-вопросы + стратегический разговор.

Что X5 ценит в DE

Ритейл-mindset. SKU × store × day — атомарность данных.
Spark на больших данных. Десятки TB ежемесячно.
ClickHouse-опыт. Партиционирование, движки, materialized views.
dbt. Версионирование, тесты, ref-модели.
Performance. Оптимизация Spark / ClickHouse query — must.

Типичные задачи и кейсы

«Спроектируй витрину продаж по SKU × store × day за 2 года»
«Spark job на 5 TB чеков работает 6 часов. Цель — 1 час. Что оптимизировать»
«ClickHouse materialized view для real-time агрегатов: дизайн»
«Backfill промо-эффектов за прошлый квартал. Как избежать конфликтов»
«JOIN чеков с item-справочником — skew по топ-SKU. Решение»

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Как готовиться: план

Spark deep. RDD, DataFrame, optimizer, shuffle, partitioning, skew, broadcast joins.
ClickHouse. MergeTree, ReplicatedMergeTree, partitioning, materialized views.
dbt. Models, ref, tests, snapshots.
DWH. Star schema, SCD типов 1/2/3, slowly changing dimensions.
SQL deep. Оконки, EXPLAIN, partitioning.
Airflow. Airflow на собесе DE.

Частые ошибки

Не понимать ритейл-метрики. «Sales per SQM», «basket size», «sell-through» — базовые понятия в ритейле.
ClickHouse поверхностно. Без знания engines и partitioning — нерелевантный кандидат.
Игнорировать dbt. В X5 dbt — стандарт трансформаций.
Слабая SQL. Уровень senior.

Связанные темы

FAQ

Сколько этапов в собеседовании на DE в X5?

Обычно 5-6: рекрутер → SQL/Python → big data → ClickHouse/dbt → архитектура → поведенческое + финал. Срок 4-6 недель.

Нужен ли опыт в ритейле?

Желателен. Релевантным считается e-com / маркетплейс / FMCG.

Какие инструменты главные?

Spark + ClickHouse + dbt + Airflow + Hadoop / Hive.

Спрашивают ли стриминг?

В отдельных командах (real-time витрины) — да.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.