Собеседование на Data Engineer в НЛМК: этапы, IoT, ETL, ClickHouse

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

НЛМК — Новолипецкий металлургический комбинат, один из ведущих мировых производителей стальной продукции с активами в России, Европе и США. Data Engineer в НЛМК — это специалист, который соединяет производственные данные (SCADA, MES, historian), коммерческие данные (ERP, CRM), лабораторные системы и BI-витрины. Эта статья собрана из публичных описаний вакансий, отзывов кандидатов и общих практик найма в промышленных компаниях — её цель помочь подготовиться, а не пересказать внутренние документы.

Почему НЛМК — особенный работодатель {#pochemu-nlmk-osobennyy-rabotodatel}

НЛМК исторически известен сильной инженерной школой и активной программой цифровизации. У компании заметная зрелость в data-стеке: внутренние команды развивают платформу данных, активно публикуются на конференциях и в профессиональных сообществах. Для DE это означает понятную траекторию роста, доступ к коллегам с глубокой экспертизой и возможность работать с современным стеком.

Дополнительный плюс — международная экспозиция бизнеса. Часть проектов и продуктов адресована глобальному рынку, что добавляет в работу DE специфические требования: разные часовые пояса в источниках, мультивалютные данные, многоязычная отчётность. Это редкий опыт для российской промышленности.

Этапы собеседования {#etapy-sobesedovaniya}

Цикл найма DE в НЛМК обычно занимает 3–5 недель и проходит в 4 этапа.

1. HR-скрининг (25–40 минут)

Рекрутер уточняет опыт, стек (Python, SQL, Spark, Airflow, Kafka, ClickHouse/Greenplum), готовность к гибридному формату работы, ожидания. Часто спрашивают про английский язык — для части позиций он обязателен.

2. Техническое интервью (60–90 минут)

Основной фильтр. Один-два интервьюера: ведущий DE или архитектор. Разбирают опыт по реальным кейсам: какие pipeline вы строили, какие хранилища использовали, как решали проблемы с качеством данных. Параллельно — SQL уверенного уровня, Python для ETL, основы Spark, понимание Kafka и принципов потоковой обработки.

3. Кейс-интервью / системный дизайн (60–90 минут)

В форме обсуждения архитектуры: «есть N источников с разной частотой, нужно построить унифицированную витрину; как ты подойдёшь?». Оценивают подход к выбору хранилища, формату данных, стратегии партиционирования, обработке поздних событий. Иногда — практическое задание на SQL или Python.

4. Финал с руководителем (60 минут)

Здесь акцент на зрелости, опыте, мотивации. Кандидата спрашивают о приоритетах, работе с DS-командами и продакшн-системами, готовности учиться индустриальной специфике. Часто разговор уходит в обсуждение реальных проектов из вашего портфолио.

Особенности по командам {#osobennosti-po-komandam}

Платформа данных и аналитики

Челенджи: проектирование и эксплуатация data-lake, BI-витрин, dbt-моделей, корпоративных хранилищ. Технологии: Spark, Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище, dbt, Trino/Presto. Кому подойдёт: DE с архитектурным мышлением.

Промышленные данные

Челенджи: приём данных с тысяч датчиков, конвейеры в реальном времени, обработка пропусков, синхронизация с лабораторными анализами. Технологии: Kafka, Flink/Spark Streaming, historian-системы, ClickHouse, Iceberg/Hudi. Кому подойдёт: DE с интересом к потоковой обработке.

MLOps и feature platform

Челенджи: инфраструктура для деплоя и мониторинга ML-моделей, feature store, переобучение. Технологии: Python, MLflow, Airflow, Docker/Kubernetes, CI/CD. Кому подойдёт: DE на стыке с DS-командами.

Коммерческие и финансовые данные

Челенджи: интеграция с ERP, выгрузки для финансов и продаж, регуляторная отчётность, B2B-маркетплейс. Технологии: SQL уверенного уровня, Airflow, Greenplum/Postgres, BI-инструменты. Кому подойдёт: DE с интересом к продуктовым витринам.

Что НЛМК ценит в Data Engineer {#chto-nlmk-tsenit}

В НЛМК ценят DE, который думает про инженерные качества решения: надёжность, наблюдаемость, поддерживаемость. Сильный кандидат на интервью говорит про pipeline через SLA, мониторинг, документацию: какие проверки качества данных, какие алерты, как организован on-call, какие технические долги остались.

Простой пример. Постановка «собрать суточные KPI цеха» — слабый DE отвечает: «напишу SQL-запрос». Сильный — уточняет: «какие источники, какая частота обновления, какой холдинг-уровень детализации, как обрабатывать опоздавшие записи, нужны ли алерты на отсутствие данных, какой формат хранения исторических снимков, как считать SLA pipeline». Это уже разговор архитектора, а не «исполнителя задачи».

НЛМК также любит DE, который умеет коммуницировать с разными аудиториями. На одном звонке могут быть бизнес-стейкхолдер, технолог, ML-инженер, BI-аналитик — все ожидают, что DE будет говорить на их языке. Это требует и широкого технического кругозора, и зрелости в коммуникациях.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план {#kak-gotovitsya-plan}

Подготовка строится в три фазы. Первая — общая база DE: SQL уверенного уровня, Python для ETL, Spark (DataFrame API, оптимизация, broadcast joins, skewed data), основы Airflow, Kafka, форматы данных (Parquet, ORC, Avro), основы построения хранилищ (Star/Snowflake, SCD, медленно меняющиеся измерения).

Вторая фаза — индустриальная специфика. Изучите, как устроены historian-системы, SCADA, MES, как они интегрируются с data-lake. Прочитайте про обработку временных рядов в больших объёмах: TimescaleDB, ClickHouse. Полезные источники: кейсы НЛМК и других металлургов на DataFest, Smart Industry, AI Journey. Тренажёр Карьерник помогает поддерживать форму на SQL и базовых алгоритмах в течение подготовки.

Третья фаза — личные кейсы. Подготовьте 2–3 истории из карьеры в формате STAR. Сделайте отдельный кейс про проблему с качеством данных или производительностью pipeline и её решение. Подготовьте «слабую» историю — где что-то пошло не так и что вы из этого вынесли.

Частые ошибки {#chastye-oshibki}

  • Кандидат говорит про конвейеры абстрактно, без объёмов и частот.
  • Незнание базовых форматов и трейдоффов: Parquet vs CSV, когда оправдан Avro, в чём преимущество columnar-формата.
  • Слабый SQL и нежелание думать о плане выполнения.
  • Игнорирование data quality. DE без привычки писать проверки — это головная боль для команды.
  • Поверхностное знание Spark: путаница в lazy evaluation, отсутствие понимания shuffle.
  • Слишком общий рассказ о проектах. Без описания объёмов, SLA, проблем и решений — этого мало.

Связанные темы {#svyazannye-temy}

FAQ {#faq}

Сколько готовиться?

Для среднего грейда DE — 4–6 недель при 1–2 годах опыта. Для смежных ролей — 2–4 месяца на освоение Spark, Kafka, Airflow и SQL уверенного уровня.

Нужен ли промышленный опыт?

Желателен, но не обязателен. НЛМК берёт людей из IT, банков, ритейла и других индустрий.

Какой стек чаще всего в вакансиях?

Python, SQL, Spark (PySpark), Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище, иногда Iceberg/Hudi, dbt. На отдельных позициях нужен английский.

Какие книги и ресурсы помогают?

Kleppmann «Designing Data-Intensive Applications» как универсальная база. Документация Spark, Kafka, ClickHouse. Кейсы металлургов на AI Journey, DataFest и Хабре.

Чем DE в НЛМК отличается от DE в Северстали?

Технологически близко. НЛМК исторически чуть активнее на международном рынке, в задачах больше места глобальной отчётности и мультивалютным данным. Северсталь — крупный игрок в России с более российским фокусом. База DE общая, нюансы — в составе источников и регуляторике.

Возможна ли удалёнка?

Зависит от позиции. Часть ролей — гибрид с офисами в Москве и Липецке, часть — удалёнка с командировками. Уточняйте у рекрутера.

Что должен знать DE про потоковую обработку?

Минимум — устройство Kafka (топики, партиции, retention, consumer groups, идемпотентные продюсеры), различия между exactly-once, at-least-once, at-most-once, основы Spark Structured Streaming или Flink (watermarking, windowing, обработка поздних событий). Это база для любого индустриального DE — без понимания потоковой обработки многие задачи здесь не решить.

Какие задачи на dbt чаще всего встречаются?

dbt активно используется для строительства слоёв витрин: staging (нормализация и типизация сырых данных), intermediate (бизнес-логика), marts (финальные витрины для BI и аналитиков). Важные практики — модель тестов (unique, not_null, accepted_values, ссылочная целостность), документация source-таблиц, использование инкрементальных материализаций для больших объёмов.

Какие специфики коммерческих данных в металлургии?

Это длинные контракты с B2B-клиентами, индивидуальные тарифные планы, многовалютная отчётность, длинные циклы recognition выручки. Для DE важно понимать, что часть данных приходит с задержкой (акты, корректировки), и витрины должны корректно перерасчитываться при поздних изменениях исторических периодов.

Как НЛМК справляется с интеграцией активов в разных странах?

Это одна из интересных архитектурных задач: данные приходят из систем нескольких ERP, в разных часовых поясах, валютах и регуляторных контурах. Хорошая практика — единый stagging-слой, который нормализует валюты и временные метки к UTC, и витрины, которые умеют отображать как локальные, так и консолидированные представления. На собеседовании плюс, если вы понимаете базовые подходы к мультивалютной нормализации (валюта расчёта, курс на дату, dim_currency_rate как медленно меняющееся измерение). Также полезно понимать разницу между функциональной и регуляторной отчётностью: первая помогает бизнесу принимать решения, вторая ограничена строгими правилами раскрытия и часто требует отдельных витрин с фиксированными определениями.

Статья основана на публичных источниках: вакансиях, отзывах кандидатов на open-площадках, профильных сообществах и общих практиках найма в промышленных компаниях. Конкретные процессы и требования могут отличаться от описанных и меняются со временем — уточняйте детали у рекрутера.