Собеседование на Data Engineer в Магнит

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Магнит — особенный работодатель для DE

Магнит — один из крупнейших ритейлеров РФ с обширной собственной логистикой (распределительные центры, агропроизводство, аптеки, дискаунтеры). DE работает с гигантскими объёмами транзакционных данных, ассортиментными базами, лояльностью, цепочками поставок и складами.

Особенность: ритейл с собственной supply chain — поэтому DE не только обрабатывает данные продаж, но и интегрирует поставщиков, склады, логистику. Архитектура: Greenplum как DWH, Spark / Hadoop для batch, ClickHouse для оперативной аналитики. Подробнее — на странице карьеры Магнита.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Специфика Магнита:

  • Был ли опыт с ритейл / FMCG данными
  • Знание SQL deep + Python
  • Готовность работать в enterprise-стэке

2. SQL и Python (60 минут)

SQL — оконки, оптимизация, EXPLAIN. Python — pandas, общие алгоритмы.

3. Big Data + Spark (60-90 минут)

Главный этап. Spark на ритейл-данных: чеки, JOIN с item-справочниками, агрегаты.

4. DWH + Greenplum (45-60 минут)

Greenplum как MPP, partitioning, distribution keys, оптимизация запросов.

5. Архитектура (60 минут)

«Спроектируй pipeline для интеграции поставщика», «витрина оборачиваемости товара», «звезда vs DataVault для ассортиментной аналитики».

6. Поведенческое + финал

STAR + стратегический разговор.

Что Магнит ценит в DE

  • Ритейл-mindset. Понимание ассортимента, лояльности, цепочек поставок.
  • Big data навыки. Spark, Hadoop.
  • Greenplum-опыт. Distribution keys, partitioning, оптимизация MPP-запросов.
  • DWH-архитектура. Star schema, SCD.
  • Compliance. Базовое 152-ФЗ.

Типичные задачи и кейсы

  • «Spark job на чеках работает 5 часов, цель 1 час. Оптимизация»
  • «Spark JOIN чеков (десятки TB) с item-справочником (1 GB). Какие подходы»
  • «Greenplum: distribution key для таблицы продаж. Что выбрать»
  • «Архитектура DWH для интеграции поставщиков (1000+ источников)»
  • «Витрина оборачиваемости товара: фичи, гранулярность, refresh-политика»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Spark deep. RDD, DataFrame, optimizer, shuffle, partitioning, skew.
  2. Greenplum. Distribution keys, partitioning, EXPLAIN на MPP.
  3. DWH. Star schema, SCD, Data Vault.
  4. SQL deep. Оконки, оптимизация.
  5. Airflow. Airflow на собесе DE.
  6. Ритейл-домен. Оборачиваемость, sell-through, ассортиментная аналитика.

Частые ошибки

  • Slab SQL. В Магните уровень senior.
  • Не знать Greenplum. Часть стэка, важно понимать MPP-специфику.
  • Spark поверхностно. Без знания shuffle, skew, broadcast — слабо.
  • Игнорировать ритейл-домен. Без понимания, что такое оборачиваемость или sell-through — нерелевантный кандидат.

Связанные темы

FAQ

Сколько этапов в собеседовании на DE в Магните?

Обычно 5-6: рекрутер → SQL/Python → Spark → Greenplum/DWH → архитектура → поведенческое + финал. Срок 4-6 недель.

Нужен ли опыт в ритейле?

Желателен. Релевантным считается опыт в FMCG, e-com, маркетплейсе.

Какие инструменты главные?

Spark + Hadoop + Greenplum + ClickHouse + Airflow.

Какой уровень SQL?

Уверенный senior. MPP-специфика, оптимизация EXPLAIN-планов.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.