Собеседование на Data Engineer в НЛМК: этапы, IoT, ETL, ClickHouse
В этой статье: Почему НЛМК · Этапы собеседования · Особенности по командам · Что НЛМК ценит · Как готовиться: план · Частые ошибки · Связанные темы · FAQ
НЛМК — Новолипецкий металлургический комбинат, один из ведущих мировых производителей стальной продукции с активами в России, Европе и США. Data Engineer в НЛМК — это специалист, который соединяет производственные данные (SCADA, MES, historian), коммерческие данные (ERP, CRM), лабораторные системы и BI-витрины. Эта статья собрана из публичных описаний вакансий, отзывов кандидатов и общих практик найма в промышленных компаниях — её цель помочь подготовиться, а не пересказать внутренние документы.
Почему НЛМК — особенный работодатель {#pochemu-nlmk-osobennyy-rabotodatel}
НЛМК исторически известен сильной инженерной школой и активной программой цифровизации. У компании заметная зрелость в data-стеке: внутренние команды развивают платформу данных, активно публикуются на конференциях и в профессиональных сообществах. Для DE это означает понятную траекторию роста, доступ к коллегам с глубокой экспертизой и возможность работать с современным стеком.
Дополнительный плюс — международная экспозиция бизнеса. Часть проектов и продуктов адресована глобальному рынку, что добавляет в работу DE специфические требования: разные часовые пояса в источниках, мультивалютные данные, многоязычная отчётность. Это редкий опыт для российской промышленности.
Этапы собеседования {#etapy-sobesedovaniya}
Цикл найма DE в НЛМК обычно занимает 3–5 недель и проходит в 4 этапа.
1. HR-скрининг (25–40 минут)
Рекрутер уточняет опыт, стек (Python, SQL, Spark, Airflow, Kafka, ClickHouse/Greenplum), готовность к гибридному формату работы, ожидания. Часто спрашивают про английский язык — для части позиций он обязателен.
2. Техническое интервью (60–90 минут)
Основной фильтр. Один-два интервьюера: ведущий DE или архитектор. Разбирают опыт по реальным кейсам: какие pipeline вы строили, какие хранилища использовали, как решали проблемы с качеством данных. Параллельно — SQL уверенного уровня, Python для ETL, основы Spark, понимание Kafka и принципов потоковой обработки.
3. Кейс-интервью / системный дизайн (60–90 минут)
В форме обсуждения архитектуры: «есть N источников с разной частотой, нужно построить унифицированную витрину; как ты подойдёшь?». Оценивают подход к выбору хранилища, формату данных, стратегии партиционирования, обработке поздних событий. Иногда — практическое задание на SQL или Python.
4. Финал с руководителем (60 минут)
Здесь акцент на зрелости, опыте, мотивации. Кандидата спрашивают о приоритетах, работе с DS-командами и продакшн-системами, готовности учиться индустриальной специфике. Часто разговор уходит в обсуждение реальных проектов из вашего портфолио.
Особенности по командам {#osobennosti-po-komandam}
Платформа данных и аналитики
Челенджи: проектирование и эксплуатация data-lake, BI-витрин, dbt-моделей, корпоративных хранилищ. Технологии: Spark, Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище, dbt, Trino/Presto. Кому подойдёт: DE с архитектурным мышлением.
Промышленные данные
Челенджи: приём данных с тысяч датчиков, конвейеры в реальном времени, обработка пропусков, синхронизация с лабораторными анализами. Технологии: Kafka, Flink/Spark Streaming, historian-системы, ClickHouse, Iceberg/Hudi. Кому подойдёт: DE с интересом к потоковой обработке.
MLOps и feature platform
Челенджи: инфраструктура для деплоя и мониторинга ML-моделей, feature store, переобучение. Технологии: Python, MLflow, Airflow, Docker/Kubernetes, CI/CD. Кому подойдёт: DE на стыке с DS-командами.
Коммерческие и финансовые данные
Челенджи: интеграция с ERP, выгрузки для финансов и продаж, регуляторная отчётность, B2B-маркетплейс. Технологии: SQL уверенного уровня, Airflow, Greenplum/Postgres, BI-инструменты. Кому подойдёт: DE с интересом к продуктовым витринам.
Что НЛМК ценит в Data Engineer {#chto-nlmk-tsenit}
В НЛМК ценят DE, который думает про инженерные качества решения: надёжность, наблюдаемость, поддерживаемость. Сильный кандидат на интервью говорит про pipeline через SLA, мониторинг, документацию: какие проверки качества данных, какие алерты, как организован on-call, какие технические долги остались.
Простой пример. Постановка «собрать суточные KPI цеха» — слабый DE отвечает: «напишу SQL-запрос». Сильный — уточняет: «какие источники, какая частота обновления, какой холдинг-уровень детализации, как обрабатывать опоздавшие записи, нужны ли алерты на отсутствие данных, какой формат хранения исторических снимков, как считать SLA pipeline». Это уже разговор архитектора, а не «исполнителя задачи».
НЛМК также любит DE, который умеет коммуницировать с разными аудиториями. На одном звонке могут быть бизнес-стейкхолдер, технолог, ML-инженер, BI-аналитик — все ожидают, что DE будет говорить на их языке. Это требует и широкого технического кругозора, и зрелости в коммуникациях.
Как готовиться: план {#kak-gotovitsya-plan}
Подготовка строится в три фазы. Первая — общая база DE: SQL уверенного уровня, Python для ETL, Spark (DataFrame API, оптимизация, broadcast joins, skewed data), основы Airflow, Kafka, форматы данных (Parquet, ORC, Avro), основы построения хранилищ (Star/Snowflake, SCD, медленно меняющиеся измерения).
Вторая фаза — индустриальная специфика. Изучите, как устроены historian-системы, SCADA, MES, как они интегрируются с data-lake. Прочитайте про обработку временных рядов в больших объёмах: TimescaleDB, ClickHouse. Полезные источники: кейсы НЛМК и других металлургов на DataFest, Smart Industry, AI Journey. Тренажёр Карьерник помогает поддерживать форму на SQL и базовых алгоритмах в течение подготовки.
Третья фаза — личные кейсы. Подготовьте 2–3 истории из карьеры в формате STAR. Сделайте отдельный кейс про проблему с качеством данных или производительностью pipeline и её решение. Подготовьте «слабую» историю — где что-то пошло не так и что вы из этого вынесли.
Частые ошибки {#chastye-oshibki}
- Кандидат говорит про конвейеры абстрактно, без объёмов и частот.
- Незнание базовых форматов и трейдоффов: Parquet vs CSV, когда оправдан Avro, в чём преимущество columnar-формата.
- Слабый SQL и нежелание думать о плане выполнения.
- Игнорирование data quality. DE без привычки писать проверки — это головная боль для команды.
- Поверхностное знание Spark: путаница в lazy evaluation, отсутствие понимания shuffle.
- Слишком общий рассказ о проектах. Без описания объёмов, SLA, проблем и решений — этого мало.
Связанные темы {#svyazannye-temy}
- Собеседование на DS в НЛМК
- Собеседование на DE в Северсталь
- Собеседование на DE в ММК
- Собеседование на DE в Норникель
- Собеседование на DE в ЛУКОЙЛ
FAQ {#faq}
Сколько готовиться?
Для среднего грейда DE — 4–6 недель при 1–2 годах опыта. Для смежных ролей — 2–4 месяца на освоение Spark, Kafka, Airflow и SQL уверенного уровня.
Нужен ли промышленный опыт?
Желателен, но не обязателен. НЛМК берёт людей из IT, банков, ритейла и других индустрий.
Какой стек чаще всего в вакансиях?
Python, SQL, Spark (PySpark), Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище, иногда Iceberg/Hudi, dbt. На отдельных позициях нужен английский.
Какие книги и ресурсы помогают?
Kleppmann «Designing Data-Intensive Applications» как универсальная база. Документация Spark, Kafka, ClickHouse. Кейсы металлургов на AI Journey, DataFest и Хабре.
Чем DE в НЛМК отличается от DE в Северстали?
Технологически близко. НЛМК исторически чуть активнее на международном рынке, в задачах больше места глобальной отчётности и мультивалютным данным. Северсталь — крупный игрок в России с более российским фокусом. База DE общая, нюансы — в составе источников и регуляторике.
Возможна ли удалёнка?
Зависит от позиции. Часть ролей — гибрид с офисами в Москве и Липецке, часть — удалёнка с командировками. Уточняйте у рекрутера.
Что должен знать DE про потоковую обработку?
Минимум — устройство Kafka (топики, партиции, retention, consumer groups, идемпотентные продюсеры), различия между exactly-once, at-least-once, at-most-once, основы Spark Structured Streaming или Flink (watermarking, windowing, обработка поздних событий). Это база для любого индустриального DE — без понимания потоковой обработки многие задачи здесь не решить.
Какие задачи на dbt чаще всего встречаются?
dbt активно используется для строительства слоёв витрин: staging (нормализация и типизация сырых данных), intermediate (бизнес-логика), marts (финальные витрины для BI и аналитиков). Важные практики — модель тестов (unique, not_null, accepted_values, ссылочная целостность), документация source-таблиц, использование инкрементальных материализаций для больших объёмов.
Какие специфики коммерческих данных в металлургии?
Это длинные контракты с B2B-клиентами, индивидуальные тарифные планы, многовалютная отчётность, длинные циклы recognition выручки. Для DE важно понимать, что часть данных приходит с задержкой (акты, корректировки), и витрины должны корректно перерасчитываться при поздних изменениях исторических периодов.
Как НЛМК справляется с интеграцией активов в разных странах?
Это одна из интересных архитектурных задач: данные приходят из систем нескольких ERP, в разных часовых поясах, валютах и регуляторных контурах. Хорошая практика — единый stagging-слой, который нормализует валюты и временные метки к UTC, и витрины, которые умеют отображать как локальные, так и консолидированные представления. На собеседовании плюс, если вы понимаете базовые подходы к мультивалютной нормализации (валюта расчёта, курс на дату, dim_currency_rate как медленно меняющееся измерение). Также полезно понимать разницу между функциональной и регуляторной отчётностью: первая помогает бизнесу принимать решения, вторая ограничена строгими правилами раскрытия и часто требует отдельных витрин с фиксированными определениями.
Статья основана на публичных источниках: вакансиях, отзывах кандидатов на open-площадках, профильных сообществах и общих практиках найма в промышленных компаниях. Конкретные процессы и требования могут отличаться от описанных и меняются со временем — уточняйте детали у рекрутера.