Собеседование на Data Engineer в Северсталь: этапы, IoT, ETL, ClickHouse

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Северсталь — крупный российский металлургический и горнодобывающий холдинг с активной программой цифровизации и собственным IT-направлением «Северсталь-Инфоком». Data Engineer здесь — это специалист, который соединяет SCADA, MES, historian-системы, ERP и аналитические витрины: он строит конвейеры данных, через которые проходят миллиарды записей с датчиков, потоки событий с производственных линий и плоские таблицы из коммерческих систем. Эта статья собрана из публичных описаний вакансий, отзывов кандидатов и общих практик найма в промышленных компаниях — её цель помочь подготовиться, а не пересказать внутренние документы.

Почему Северсталь — особенный работодатель {#pochemu-severstal-osobennyy-rabotodatel}

Промышленные данные принципиально отличаются от данных «обычной» IT-компании. На металлургическом комбинате один датчик температуры в печи генерирует сотни тысяч точек в сутки, и таких датчиков — десятки тысяч. Поверх этого — события смен, плавок, ремонтов, лабораторных анализов; ниже — медленные ERP-данные о закупках сырья и отгрузках продукции. Data Engineer должен уметь работать с этой смесью «высокочастотных» и «низкочастотных» потоков, не теряя ни смысла, ни производительности.

Северсталь инвестирует в собственную data-платформу: внутренние команды развивают озеро данных, потоковую инфраструктуру, BI-витрины, MLOps. Для DE это означает разнообразные задачи и возможность вырасти от поддержки одного pipeline до проектирования архитектуры платформы. Параллельно у компании есть направления горнодобычи, проката, цифровых сервисов B2B — DE-роль здесь действительно широкая.

Этапы собеседования {#etapy-sobesedovaniya}

Цикл найма DE в Северсталь обычно занимает 3–5 недель и проходит в 4 этапа.

1. HR-скрининг (25–40 минут)

Рекрутер уточняет опыт, стек (Python/Scala, SQL, Spark/Flink, Airflow, Kafka, ClickHouse/Greenplum), готовность к гибридному формату (Череповец, Москва, удалёнка с командировками), ожидания. Часто спрашивают про опыт работы с большими объёмами данных и индустриальными системами — это плюс, но не обязательно.

2. Техническое интервью (60–90 минут)

Основной фильтр. Один-два интервьюера: ведущий DE или архитектор. Разбирают опыт по реальным кейсам: какие pipeline вы строили, какие хранилища использовали, как решали проблемы с качеством данных, как организовывали мониторинг. Параллельно — SQL уверенного уровня (JOIN, оконные функции, оптимизация, понимание плана выполнения), Python для ETL, основы Spark/Flink, понимание Kafka.

3. Кейс-интервью / системный дизайн (60–90 минут)

В форме обсуждения архитектуры: «как ты спроектируешь конвейер для приёма данных с 50 тысяч датчиков с разной частотой?». Оценивают подход к выбору хранилища, формату данных (Parquet, ORC, JSON Lines), стратегии партиционирования, обработке поздних событий, расчёту агрегатов. Иногда — практическое задание на SQL/Python.

4. Финал с руководителем (60 минут)

Здесь акцент на зрелости, опыте, мотивации. Кандидата спрашивают о приоритетах, работе с DS-командами и продакшн-системами, готовности учиться индустриальной специфике. Часто разговор уходит в обсуждение реальных проектов из вашего портфолио.

Особенности по командам {#osobennosti-po-komandam}

Платформа данных (Data Platform)

Челенджи: проектирование и эксплуатация data-lake, потоковой инфраструктуры, BI-витрин, dbt-моделей. Технологии: Spark, Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище, dbt, Trino/Presto. Кому подойдёт: DE с архитектурным мышлением и опытом в построении data-платформ с нуля или их развитием.

Промышленные данные (IoT, SCADA, historian)

Челенджи: приём данных с датчиков (часто с историей в десятки лет), конвейеры в реальном времени, обработка пропусков и шумов, синхронизация с лабораторными анализами. Технологии: Kafka, Flink/Spark Streaming, специализированные historian-системы (PI, Wonderware), ClickHouse для time-series, Iceberg/Hudi. Кому подойдёт: DE с интересом к потоковой обработке и индустриальным форматам данных.

MLOps и поддержка моделей

Челенджи: инфраструктура для деплоя и мониторинга ML-моделей, feature store, переобучение моделей. Технологии: Python, MLflow, Airflow, Docker/Kubernetes, CI/CD. Кому подойдёт: DE/ML-инженеру, которому интересна инфраструктурная часть ML.

Коммерческие и финансовые данные

Челенджи: интеграция с ERP, выгрузки для финансов и продаж, регуляторная отчётность, B2B-маркетплейс. Технологии: SQL уверенного уровня, Airflow, Greenplum/Postgres, иногда специализированные BI-инструменты. Кому подойдёт: DE с интересом к продуктовым витринам и тесной работе с бизнесом.

Что Северсталь ценит в Data Engineer {#chto-severstal-tsenit}

В промышленной компании DE — это инженер, отвечающий за то, чтобы «модель видела чистые данные, а руководитель — корректный отчёт». Сильный кандидат на интервью говорит про конвейеры через надёжность, наблюдаемость и стоимость владения: какие SLA по данным, как мониторятся пропуски, что происходит при сбое источника, как организован retry, какие технические долги остались.

Простой пример. Постановка «собрать историю показаний датчика X для аналитика» — слабый DE отвечает: «возьму CSV, загружу в DataFrame, отдам». Сильный — уточняет: «какая частота, какой период, сколько примерно объём; читать ли из historian напрямую или из data-lake; нужно ли учитывать перебои сети между датчиком и сервером (gaps в данных); какая частота сэмплирования нужна аналитику (минутный, часовой, посекундный); как лучше передать — Parquet в S3, агрегаты в ClickHouse, или плоский CSV». После этих уточнений выбор инструмента становится очевидным.

Северсталь также ценит DE, который думает про data quality и сопровождение. В промышленной среде источники меняются: новый датчик появляется, старый ломается, протокол связи обновляется. Pipeline должен быть устойчивым к этим изменениям, а отказы — отлавливаться раньше, чем их заметит аналитик.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план {#kak-gotovitsya-plan}

Подготовка строится в три фазы. Первая — общая база DE: SQL уверенного уровня (JOIN, оконные функции, агрегаты, понимание плана выполнения), Python для ETL и работы с DataFrame, Spark (DataFrame API, основы оптимизации, broadcast joins, skewed data), основы Airflow или аналогичных оркестраторов, Kafka (топики, партиции, retention, consumer groups), форматы данных (Parquet, ORC, JSON Lines, Avro), основы построения хранилищ (Star/Snowflake, SCD, slowly changing dimensions).

Вторая фаза — индустриальная специфика. Изучите, как устроены historian-системы (PI, Wonderware, GE Proficy), SCADA, MES, как они интегрируются с data-lake. Прочитайте про обработку временных рядов в больших объёмах: TimescaleDB, ClickHouse, специализированные TSDB. Полезно посмотреть кейсы Северстали и других металлургов на DataFest, Smart Industry, AI Journey, статьи на Хабре. Чтобы поддерживать форму на SQL и базовых алгоритмах в течение подготовки, удобен тренажёр Карьерник — короткие сессии помогают не упустить мелочи.

Третья фаза — личные кейсы. Подготовьте 2–3 истории из карьеры в формате STAR: ситуация, задача, действия, результат. Сделайте отдельный кейс про проблему с качеством данных и её решение: какой был корневой источник, как нашли, что исправили, как защитились от повторения. Подготовьте «слабый» кейс — где что-то пошло не так и что вы из этого вынесли.

Частые ошибки {#chastye-oshibki}

  • Кандидат говорит про конвейеры абстрактно: «использовал Spark, выгружал в Hadoop». Без деталей про объёмы, частоту, особенности данных, retry-логику — это сигнал слабого опыта.
  • Незнание базовых форматов и трейдоффов: Parquet vs CSV, row-based vs column-based, когда оправдан Avro.
  • Слабый SQL и нежелание думать о плане выполнения. В промышленной среде с большими объёмами без понимания плана быстро упираются в производительность.
  • Игнорирование data quality. DE без привычки писать проверки, мониторить пропуски и реагировать на регрессии в данных — это будущая «головная боль» команды.
  • Поверхностное знание Spark: путаница в lazy evaluation, отсутствие понимания shuffle и broadcast, неспособность объяснить, почему один и тот же запрос выполняется по-разному.
  • Слишком общий рассказ о проектах: «строил витрины». Без описания объёмов, SLA, проблем и решений — этого мало.

Связанные темы {#svyazannye-temy}

FAQ {#faq}

Сколько готовиться?

Для среднего грейда DE — 4–6 недель при наличии 1–2 лет опыта в дата-инжиниринге. Если опыт смежный (бэкенд-разработчик, аналитик данных) — добавьте 2–4 месяца на освоение Spark, Kafka, Airflow и SQL уверенного уровня.

Нужен ли промышленный опыт?

Желателен, но не обязателен. Если у вас сильная DE-база (SQL, Python, Spark, Kafka, Airflow) и понятные проекты, индустриальную специфику можно освоить на рабочем месте. Северсталь берёт людей из IT, банков и крупных ритейлеров.

Какой стек чаще всего в DE-вакансиях?

Python, SQL, Spark (PySpark), Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище, иногда Iceberg/Hudi, dbt. Из специфичного — интеграции с historian-системами и SCADA.

Чем DE в Северстали отличается от DE в банке?

В банке — преимущественно табличные данные, строгая регуляторика, большие объёмы транзакционных потоков. В Северстали — смесь high-frequency сенсорных данных и low-frequency бизнес-данных, индустриальные источники, длинные истории. Общая DE-база близкая, но домен и форматы данных разные.

Какие книги и ресурсы помогают?

Kleppmann «Designing Data-Intensive Applications» как универсальная база. Документация Spark, Kafka, ClickHouse. Кейсы металлургов на AI Journey, DataFest и Хабре.

Статья основана на публичных источниках: вакансиях, отзывах кандидатов на open-площадках, профильных сообществах и общих практиках найма в промышленных компаниях. Конкретные процессы и требования могут отличаться от описанных и меняются со временем — уточняйте детали у рекрутера.