Собеседование на Data Engineer в Магнит
Содержание:
Почему Магнит — особенный работодатель для DE
Магнит — крупнейшая в России по числу точек розничная сеть: больше 30 тысяч магазинов разных форматов (у дома, семейный, косметик, аптеки), миллионы чеков в день, десятки миллионов держателей карт лояльности «Магнит». Для Data Engineer это работа на промышленных объёмах: каждая SKU-операция в каждом магазине каждый день — это сотни миллионов строк фактов в день, плюс мастер-данные ассортимента, цен, промо, поставщиков. DE-команда Магнита делает то, без чего не работает ни одна продуктовая аналитика и ни одна ML-модель — собирает, склеивает, чистит и доставляет эти данные в DWH с понятной семантикой и SLA.
Главные DE-домены: построение чек-DWH (десятки миллионов чеков в день из 30к точек), интеграция мастер-данных (ассортимент, цены, промо, поставщики, клиенты лояльности), pipeline для прогноза спроса и assortment planning (миллионы временных рядов SKU × магазин), CRM-витрины и программа лояльности (десятки миллионов клиентов), регуляторная отчётность (касса, НДС, прослеживаемость товаров, маркировка «Честный знак»), логистика (потоки поставок, прогноз остатков, дозаказ), e-com доставка (заказы, маршрутизация, courier-аналитика).
Стек: Greenplum как основной DWH + ClickHouse для real-time и аналитики чеков + Oracle/MS SQL как источники из core-систем; Airflow + dbt + Spark + Hadoop; Kafka + Debezium для CDC; data lake на S3-совместимых хранилищах + Iceberg/Hudi; Grafana и кастомные инструменты для observability. Большая legacy-часть на Informatica и SAS, активно мигрируется. DE-команда крупная — от 100+ инженеров — из-за масштабов.
Актуальные вакансии — на hh.ru и сайте Магнита.
Информация основана на публичных источниках и опыте кандидатов. Команды Магнита используют разные процессы — формат и этапы зависят от направления, локации и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 3-5 недель, 4-5 этапов. Процесс прагматичный: HR, техническое интервью, кодинг и SQL, продуктово-архитектурный кейс, финал. Алгоритмическая планка средняя, без LeetCode Hard.
1. HR-скрининг (30-45 минут)
Рекрутер уточняет: production-опыт DE (от 1.5-2 лет, желательно с большими табличными объёмами или ритейл-контекстом), знание классического DWH и современного data stack, мотивацию идти именно в Магнит, ожидания по компенсации и формату работы (Краснодар или Москва — два больших HR-центра). Готовь питч на 90 секунд про самый зрелый production-pipeline с цифрами по объёмам и SLA.
2. Техническое интервью / SQL и архитектура (60-90 минут)
Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, рекурсивные CTE, оптимизация запросов на больших фактических таблицах, partitioning, индексы, EXPLAIN, specifics MPP-СУБД Greenplum), модели данных (звезда vs снежинка, SCD типы, Data Vault — для розничного DWH часто используется), batch vs streaming, CDC (Debezium), data quality (тесты в dbt, Great Expectations), data lineage. Часто специфический вопрос: «как ты бы построил витрину чеков с миллиардом строк в год и доступом по магазину и времени для аналитиков».
Подготовка: SQL для DE, Data modeling, Spark deep dive.
3. Python + SQL live coding (60-90 минут)
Задачи прагматичные: 1-2 на SQL (оконки, JOIN, оптимизация на больших таблицах — часто чеки или мастер-данные), 1-2 на Python (pandas, простые ETL, обработка CDC-events). Часто живой кейс: «дам тебе схему таблиц чеков и ассортимента, посчитай долю промо-продаж по категориям за месяц». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python.
Подготовка: SQL для DE.
4. Продуктово-архитектурный кейс (60-90 минут)
Самая характерная секция. Кейс архитектурный: «спроектируй pipeline для чек-DWH с поддержкой 30 тысяч магазинов», «как ты бы построил CDC из POS-систем разных поколений», «как сделать pipeline для прогноза спроса с миллионами рядов SKU × магазин». Нужно: уточнить требования (объём, SLA, регуляторика, формат данных POS), описать архитектуру (источники → транспорт → процессинг → витрина), выбрать стек и обосновать, продумать data quality и monitoring, обсудить trade-off batch vs streaming, заложить план рекавери. Сильный сигнал — учёт масштаба: миллиарды строк в год не получится залить «как обычно».
Подготовка: Airflow patterns, ClickHouse и OLAP.
5. Финал с тимлидом / руководителем направления (45 минут)
Беседа с тимлидом или руководителем. Проверяют поведенческие истории (STAR), отношение к корпоративной работе с категорийщиками и операционкой, готовность к ответственности за регулярные пайплайны, обсуждают грейд и формат (Краснодар или Москва).
Особенности по командам
Чек-DWH и фактическая аналитика. Самая большая DE-команда: построение и поддержка чек-DWH (десятки миллионов чеков в день), мастер-данных ассортимента и цен. Стек — Greenplum + ClickHouse + Airflow + dbt + Spark. Челлендж — масштаб: миллиарды строк фактов, тысячи измерений (SKU, магазин, время, клиент, промо, поставщик), необходимость быстрого доступа аналитиков. Подойдёт кандидатам с big-data DWH-опытом и пониманием MPP-СУБД.
Прогноз спроса и assortment-pipeline. Команда строит pipeline для прогноза спроса (миллионы временных рядов), feature engineering для ML-моделей assortment planning. Стек — Spark + Python + Catboost (ML-side) + dbt + Greenplum. Челлендж — train-serving consistency, длинные хвосты SKU, регулярные пересборки. Подойдёт DE с background в ML-инфраструктуре или supply-chain analytics.
CRM и программа лояльности. Команда строит витрины для программы лояльности «Магнит»: миллионы клиентов, поведенческие сигналы, single customer view, сегментация для маркетинга. Стек — dbt + Greenplum + ClickHouse + Airflow + интеграция с CDP. Челлендж — миллионы клиентов, разреженная история, GDPR/152-ФЗ требования. Подойдёт DE с опытом в CRM или CDP.
Логистика и операционная аналитика. Команда занимается данными логистики: потоки поставок, остатки на РЦ и магазинах, прогноз дозаказа, операционные показатели магазинов. Стек — dbt + Greenplum + Spark + кастомные интеграции с логистическими системами. Подойдёт DE с background в supply-chain или operations.
Регуляторная отчётность и маркировка. Команда отвечает за регулярные отчёты ФНС, отчётность по маркировке («Честный знак»), кассовые отчёты. Стек — dbt + Greenplum + специализированные интеграции с ФНС и ЦРПТ. Челлендж — изменения регуляторных требований, длинные циклы тестирования, доказательная цепочка. Подойдёт DE с regulatory-опытом.
Что Магнит ценит в DE
Production-опыт на масштабе. История про pipeline в проде на десятках миллионов событий в день. «Сделал pipeline на Kaggle» — не история. «Запустил чек-DWH на 50М чеков в день с SLA T+1 и 99.9% доступностью» — это история.
Понимание ритейл-бизнеса. Не обязательно работал в ритейле, но базовые понятия (SKU, ассортиментная матрица, out-of-stock, маржа, оборот, ABC-анализ, корзина, чек, программа лояльности) должны быть знакомы. На кейсе сразу видно, кто это понимает.
Прагматизм над хайпом. В Магните ценят «давай попробуем Spark + Greenplum», а не «возьмём Iceberg на Kubernetes». Кандидат, который на System Design предлагает экзотический стек без обоснования, получит -1.
Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём Kafka и Spark Streaming для чек-DWH, чтобы было real-time». Сильный ответ: «чек-DWH — это batch с T+1 SLA для основной массы аналитики; real-time нужен только для оперативного мониторинга. Возьму Airflow + dbt + Greenplum для основного контура и ClickHouse для real-time витрин. Источники POS — через Kafka + Debezium, далее в data lake (Iceberg) для исторической истины, оттуда инкрементная загрузка в DWH через dbt с обязательными reconciliation-тестами по агрегатам выручки по магазину и дню. Для real-time — отдельный поток в ClickHouse с TTL 7 дней».
Готовность к корпоративной среде и темпу. Магнит — крупный ритейл, регламентов хватает, но темп быстрее многих корпораций. Кандидат, который ругает «бюрократию» в принципе или не любит работать с категорийщиками, рассматривается слабее.
Готовность к локации. Часть команд в Краснодаре, часть в Москве. Кандидат, не готовый к командировкам, может проиграть в выборе позиций.
Как готовиться: план
За 4-6 недель до планируемого собеса:
- Неделя 1-2 — SQL deep dive и data modeling. Оконные функции, рекурсивные CTE, оптимизация запросов на больших таблицах, partitioning, индексы, EXPLAIN, MPP-специфика (Greenplum: distribution keys, motion operations). Модели данных (звезда, снежинка, SCD типы, Data Vault). Прорешай 30 SQL Medium-Hard задач. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, за месяц закроешь пробелы и не будешь путаться на простых SQL-задачах.
- Неделя 3 — Современный data stack. Airflow patterns, dbt (модели, тесты, snapshots, sources), Spark (оптимизация, partitioning, shuffle), Kafka + Debezium для CDC, ClickHouse для OLAP.
- Неделя 4 — Ритейл-контекст. Прочитай блоги X5 Tech, Wildberries Tech, Магнит Tech (если есть публичные доклады), статьи по retail-DWH. Запомни понятия: SKU, ассортиментная матрица, out-of-stock, оборачиваемость, эластичность, ABC-анализ, чек, программа лояльности, маркировка ЧЗ.
- Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: чек-DWH 30к магазинов, CDC из POS, real-time витрина для операционки, single customer view, маркировка ЧЗ. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Airflow patterns.
- Неделя 6 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с категорийным менеджером, факап в проде (повлиял на оперативные дашборды), длинная миграция legacy, история про масштабирование.
Частые ошибки
Хайпуют экзотическим стеком. Кандидат предлагает Iceberg + Trino + Kubernetes для чек-DWH. Не упоминает, что у команды уже Greenplum + dbt работают на этом объёме, и переезд это не задача на собес. Балл проседает.
Не разбираются в ритейл-метриках. «Что такое out-of-stock, оборачиваемость, ABC-анализ?» — кандидат теряется. На архитектурном кейсе это сразу видно.
Не думают про reconciliation. Кандидат строит pipeline без сверки выручки с кассой или агрегатов по магазину. В ритейле расхождение в чек — это претензия от бухгалтерии и КИП. Reconciliation должен быть в дизайне с самого начала.
Игнорируют масштаб. Кандидат проектирует «как для одной компании», не учитывая 30 тысяч магазинов и миллиарды строк фактов в год. Если в ответе нет ни слова про partitioning, distribution key, slow vs fast dimensions — балл проседает.
Не задают вопросы про объёмы и форматы данных POS. На кейсе сразу — стек, а не «сколько чеков в день, какие POS-системы, какие задержки, какие SLA». Это первый фильтр.
Связанные темы
- Собеседование на Data Engineer
- SQL для DE
- Spark deep dive
- Собеседование на Data Engineer в X5
- Собеседование на Data Scientist в Магнит
FAQ
Удалёнка в Магните для DE?
Гибрид с офисами в Краснодаре и Москве. Полная удалёнка возможна для senior+ при согласовании, но не правило. Часть команд исторически больше в Краснодаре, часть в Москве.
Зарплатные вилки 2026?
Middle DE: 240-380k. Senior: 380-600k. Lead/Staff — выше, особенно в DWH и стриминг-направлениях. Бонусная схема привязана к KPI команды и бизнеса.
Нужен ли английский?
Базовый — для документации. Свободного говорящего не требуется, основная команда русскоязычная.
Сколько этапов?
4-5 этапов, 3-5 недель от первого скрининга до оффера. Магнит известен прагматичной скоростью процесса.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам и локации.