Собеседование на Data Engineer в Магнит
Содержание:
Почему Магнит — особенный работодатель для DE
Магнит — один из крупнейших ритейлеров РФ с обширной собственной логистикой (распределительные центры, агропроизводство, аптеки, дискаунтеры). DE работает с гигантскими объёмами транзакционных данных, ассортиментными базами, лояльностью, цепочками поставок и складами.
Особенность: ритейл с собственной supply chain — поэтому DE не только обрабатывает данные продаж, но и интегрирует поставщиков, склады, логистику. Архитектура: Greenplum как DWH, Spark / Hadoop для batch, ClickHouse для оперативной аналитики. Подробнее — на странице карьеры Магнита.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Специфика Магнита:
- Был ли опыт с ритейл / FMCG данными
- Знание SQL deep + Python
- Готовность работать в enterprise-стэке
2. SQL и Python (60 минут)
SQL — оконки, оптимизация, EXPLAIN. Python — pandas, общие алгоритмы.
3. Big Data + Spark (60-90 минут)
Главный этап. Spark на ритейл-данных: чеки, JOIN с item-справочниками, агрегаты.
4. DWH + Greenplum (45-60 минут)
Greenplum как MPP, partitioning, distribution keys, оптимизация запросов.
5. Архитектура (60 минут)
«Спроектируй pipeline для интеграции поставщика», «витрина оборачиваемости товара», «звезда vs DataVault для ассортиментной аналитики».
6. Поведенческое + финал
STAR + стратегический разговор.
Что Магнит ценит в DE
- Ритейл-mindset. Понимание ассортимента, лояльности, цепочек поставок.
- Big data навыки. Spark, Hadoop.
- Greenplum-опыт. Distribution keys, partitioning, оптимизация MPP-запросов.
- DWH-архитектура. Star schema, SCD.
- Compliance. Базовое 152-ФЗ.
Типичные задачи и кейсы
- «Spark job на чеках работает 5 часов, цель 1 час. Оптимизация»
- «Spark JOIN чеков (десятки TB) с item-справочником (1 GB). Какие подходы»
- «Greenplum: distribution key для таблицы продаж. Что выбрать»
- «Архитектура DWH для интеграции поставщиков (1000+ источников)»
- «Витрина оборачиваемости товара: фичи, гранулярность, refresh-политика»
Как готовиться: план
- Spark deep. RDD, DataFrame, optimizer, shuffle, partitioning, skew.
- Greenplum. Distribution keys, partitioning, EXPLAIN на MPP.
- DWH. Star schema, SCD, Data Vault.
- SQL deep. Оконки, оптимизация.
- Airflow. Airflow на собесе DE.
- Ритейл-домен. Оборачиваемость, sell-through, ассортиментная аналитика.
Частые ошибки
- Slab SQL. В Магните уровень senior.
- Не знать Greenplum. Часть стэка, важно понимать MPP-специфику.
- Spark поверхностно. Без знания shuffle, skew, broadcast — слабо.
- Игнорировать ритейл-домен. Без понимания, что такое оборачиваемость или sell-through — нерелевантный кандидат.
Связанные темы
- Собеседование на DE в X5 Group
- Собеседование на DE в Ozon
- Spark на собесе DE
- Airflow на собесе DE
- DWH ClickHouse на собесе DE
FAQ
Сколько этапов в собеседовании на DE в Магните?
Обычно 5-6: рекрутер → SQL/Python → Spark → Greenplum/DWH → архитектура → поведенческое + финал. Срок 4-6 недель.
Нужен ли опыт в ритейле?
Желателен. Релевантным считается опыт в FMCG, e-com, маркетплейсе.
Какие инструменты главные?
Spark + Hadoop + Greenplum + ClickHouse + Airflow.
Какой уровень SQL?
Уверенный senior. MPP-специфика, оптимизация EXPLAIN-планов.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.