Собеседование на Data Engineer в ММК: этапы, IoT, ETL, ClickHouse

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Магнитогорский металлургический комбинат — один из крупнейших производителей стали в мире с долгой историей и активной программой цифровой трансформации. Data Engineer в ММК работает на интересном перекрёстке: с одной стороны — десятилетия исторических производственных данных, с другой — современные требования к скорости и качеству информации для ML-проектов, BI-аналитики и оперативного управления. Эта статья собрана из публичных описаний вакансий, отзывов кандидатов и общих практик найма в промышленных компаниях — её цель помочь подготовиться, а не пересказать внутренние документы.

Почему ММК — особенный работодатель {#pochemu-mmk-osobennyy-rabotodatel}

В ММК — большая экосистема производственных IT-систем, и для DE это означает реальное разнообразие задач. На комбинате есть SCADA, MES, ERP, лабораторные системы, системы планирования, корпоративный портал, BI-инструменты. Каждый передел (домна, конвертер, прокат, заготовка) даёт свой поток данных. У комбината собственное IT-направление, центры компетенций, программы стажировок и партнёрства с университетами.

Уникальная черта ММК — масштаб одного производственного комплекса в Магнитогорске. Это не распределённая сеть мелких заводов, а гигантский комплекс с тысячами агрегатов и единым полем зрения. Для DE это значит, что одна data-платформа должна обслужить очень разные потребности: от real-time оптимизации работы стана до годовой отчётности и долгосрочной аналитики.

Этапы собеседования {#etapy-sobesedovaniya}

Цикл найма DE в ММК обычно занимает 3–5 недель и проходит в 4 этапа.

1. HR-скрининг (25–40 минут)

Рекрутер уточняет опыт, стек (Python/Scala, SQL, Spark, Airflow, Kafka, ClickHouse/Greenplum), готовность к работе в Магнитогорске или гибриду с Москвой, ожидания по компенсации. Часто спрашивают про опыт работы с большими объёмами данных и индустриальными системами.

2. Техническое интервью (60–90 минут)

Основной фильтр. Один-два интервьюера: ведущий DE или архитектор. Разбирают опыт по реальным кейсам: какие pipeline вы строили, какие хранилища использовали, как решали проблемы с качеством данных. Параллельно — SQL уверенного уровня, Python для ETL, основы Spark, понимание Kafka и принципов потоковой обработки.

3. Кейс-интервью / системный дизайн (60–90 минут)

В форме обсуждения архитектуры: «у нас есть N датчиков с частотой записи 1 Гц, нужна минутная и часовая агрегация в BI; как ты спроектируешь конвейер?». Оценивают подход к выбору хранилища, формату данных, стратегии партиционирования, обработке поздних событий. Иногда — практическое задание на SQL или Python.

4. Финал с руководителем (60 минут)

Здесь акцент на зрелости, опыте, мотивации. Кандидата спрашивают о приоритетах, работе с DS-командами и продакшн-системами, готовности учиться индустриальной специфике. Часто разговор уходит в обсуждение реальных проектов из вашего портфолио.

Особенности по командам {#osobennosti-po-komandam}

Платформа данных и аналитики

Челенджи: проектирование и эксплуатация data-lake, BI-витрин, dbt-моделей, корпоративных хранилищ. Технологии: Spark, Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище, dbt, Trino/Presto. Кому подойдёт: DE с архитектурным мышлением и опытом в построении data-платформ.

Промышленные данные (SCADA, MES, historian)

Челенджи: приём данных с тысяч датчиков, конвейеры в реальном времени, обработка пропусков и шумов, синхронизация с лабораторными анализами. Технологии: Kafka, Flink/Spark Streaming, historian-системы, ClickHouse для time-series, иногда Iceberg/Hudi. Кому подойдёт: DE с интересом к потоковой обработке и индустриальным форматам данных.

Поддержка ML-команд (MLOps)

Челенджи: инфраструктура для деплоя и мониторинга ML-моделей, feature store, переобучение. Технологии: Python, MLflow, Airflow, Docker/Kubernetes, CI/CD. Кому подойдёт: DE с интересом к ML-инфраструктуре и работе на стыке с DS-командами.

Коммерческие и бизнес-данные

Челенджи: интеграция с ERP, выгрузки для финансов и продаж, регуляторная отчётность, B2B-сервисы. Технологии: SQL уверенного уровня, Airflow, Greenplum/Postgres, BI-инструменты. Кому подойдёт: DE с интересом к продуктовым витринам и работе с бизнесом.

Что ММК ценит в Data Engineer {#chto-mmk-tsenit}

В ММК ценят DE, который понимает специфику промышленных данных и умеет строить надёжные конвейеры. Сильный кандидат на интервью говорит про pipeline через надёжность, наблюдаемость и стоимость владения: какие SLA по данным, как мониторятся пропуски, что происходит при сбое источника, как организован retry, какие технические долги остались.

Простой пример. Постановка «загрузить данные с нового агрегата в наше озеро» — слабый DE отвечает: «возьму CSV, положу в S3». Сильный — уточняет: «какой источник (PLC, OPC-сервер, historian), какая частота, как делать backfill для исторических данных, какая схема (плоская таблица, иерархическая), какой формат хранения (Parquet, Iceberg), какая стратегия партиционирования, нужны ли агрегаты для BI, как мониторить отсутствие данных?». Только после этого выбор инструмента становится разумным.

ММК также ценит DE, который умеет работать в длинных проектах. Платформа данных в крупной промышленности развивается годами: важно не сдаваться при первых неудачах, выстраивать процессы, защищать решение перед стейкхолдерами. Это требует и технических навыков, и зрелости в коммуникациях.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план {#kak-gotovitsya-plan}

Подготовка строится в три фазы. Первая — общая база DE: SQL уверенного уровня, Python для ETL, Spark (DataFrame API, оптимизация, broadcast joins, skewed data), основы Airflow, Kafka (топики, партиции, retention, consumer groups), форматы данных (Parquet, ORC, JSON Lines, Avro), основы построения хранилищ (Star/Snowflake, SCD).

Вторая фаза — индустриальная специфика. Изучите, как устроены historian-системы (PI, Wonderware, GE Proficy), SCADA, MES, как они интегрируются с data-lake. Прочитайте про обработку временных рядов в больших объёмах: TimescaleDB, ClickHouse. Полезные источники: кейсы ММК и других металлургов на DataFest, Smart Industry, AI Journey, статьи на Хабре. Поддерживайте форму на тренажёре Карьерник — короткие сессии по SQL удобны между большими блоками подготовки.

Третья фаза — личные кейсы. Подготовьте 2–3 истории из карьеры в формате STAR. Сделайте отдельный кейс про проблему с качеством данных или производительностью pipeline и её решение. Подготовьте «слабую» историю — где что-то пошло не так и что вы из этого вынесли.

Частые ошибки {#chastye-oshibki}

  • Кандидат говорит про конвейеры абстрактно: «использовал Spark, выгружал в Hadoop». Без деталей про объёмы, частоту, особенности данных — это сигнал слабого опыта.
  • Незнание базовых форматов и трейдоффов: Parquet vs CSV, row-based vs column-based, когда оправдан Avro.
  • Слабый SQL и нежелание думать о плане выполнения. В промышленных объёмах без понимания плана — никак.
  • Игнорирование data quality. DE без привычки писать проверки и реагировать на регрессии — это будущая головная боль команды.
  • Поверхностное знание Spark: путаница в lazy evaluation, отсутствие понимания shuffle и broadcast.
  • Слишком общий рассказ о проектах: «строил витрины». Без описания объёмов, SLA, проблем и решений — этого мало.

Связанные темы {#svyazannye-temy}

FAQ {#faq}

Сколько готовиться?

Для среднего грейда DE — 4–6 недель при 1–2 годах опыта. Для смежных ролей (бэкенд, аналитик данных) — 2–4 месяца на освоение Spark, Kafka, Airflow и SQL уверенного уровня.

Нужен ли промышленный опыт?

Желателен, но не обязателен. ММК берёт людей из IT, банков, ритейла. Индустриальную специфику можно освоить на рабочем месте.

Какой стек чаще всего в вакансиях?

Python, SQL, Spark (PySpark), Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище, иногда Iceberg/Hudi, dbt.

Возможна ли удалёнка?

Зависит от направления. Часть позиций — гибрид (Магнитогорск/Москва), часть — удалёнка с командировками. Уточняйте у рекрутера.

Какие книги и ресурсы помогают?

Kleppmann «Designing Data-Intensive Applications» как универсальная база. Документация Spark, Kafka, ClickHouse. Кейсы металлургов на AI Journey, DataFest и Хабре.

Чем DE в ММК отличается от DE в банке?

В банке — табличные данные, строгая регуляторика, большие объёмы транзакций. В ММК — смесь высокочастотных сенсорных данных и низкочастотных бизнес-данных, индустриальные источники, длинные истории. База DE близкая, но домены разные.

Что делать DE с историческими данными десятилетней давности?

Это типовая задача в металлургии. У ММК есть архивы historian-систем, идущие на 20+ лет, и часть из них хранится в форматах, плохо приспособленных для аналитики. Хорошая практика — выделять отдельные «cold-tier» хранилища (часто на S3 в Parquet с агрессивной компрессией), грамотно партиционировать по дате и установить чёткие SLA на доступ к старым данным.

Какие проверки качества данных особенно важны?

Самые частые проблемы — пропуски (отказ сенсора, обрыв канала связи), скачки (нештатный режим оборудования), дрейф (изменение калибровки). Для каждого ключевого источника полезно иметь автоматические проверки: процент пропущенных значений за окно времени, статистики (среднее, дисперсия) в скользящем окне, проверки на «застой» значений (одно и то же число подряд — часто признак сломанного датчика).

Статья основана на публичных источниках: вакансиях, отзывах кандидатов на open-площадках, профильных сообществах и общих практиках найма в промышленных компаниях. Конкретные процессы и требования могут отличаться от описанных и меняются со временем — уточняйте детали у рекрутера.