Собеседование на Data Scientist в ММК: этапы, индустриальные задачи, частые ошибки

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Магнитогорский металлургический комбинат (ММК) — один из крупнейших мировых производителей стали с историей в почти столетие и активной программой цифровизации. Data Scientist в ММК — это специалист, который работает с десятками лет накопленных данных по доменным печам, конвертерам, прокатным станам и заготовительному производству. Эта статья собрана из публичных описаний вакансий, отзывов кандидатов и общих практик найма в промышленных компаниях — её цель помочь подготовиться, а не пересказать внутренние документы.

Почему ММК — особенный работодатель {#pochemu-mmk-osobennyy-rabotodatel}

ММК — это не просто завод. Это самостоятельная экосистема в Магнитогорске с собственной IT-инфраструктурой, центрами компетенций и большой программой Industry 4.0. У комбината есть полный цикл: от рудника до проката, и каждый передел даёт собственный поток данных. Поэтому DS в ММК редко работает в одном узком домене — обычно специалист закрывает целое направление (домна, конвертер, прокат, машины непрерывного литья) и постепенно становится экспертом в нём.

Главное отличие ММК от стартапов и банков — длительные циклы внедрения и большая ответственность. Модель, которая управляет режимом оборудования, должна работать предсказуемо в условиях шумов датчиков, износа техники и изменчивости сырья. Это требует от DS привычки тщательно валидировать решения, разговаривать с технологами на их языке и аккуратно работать с production. Зато результат измеряется в очень конкретных цифрах: тонны металла, миллионы рублей, проценты выхода годного.

Этапы собеседования {#etapy-sobesedovaniya}

Цикл найма DS в ММК обычно занимает 3–5 недель и проходит в 4 этапа.

1. HR-скрининг (25–40 минут)

Рекрутер уточняет опыт, домены, готовность к работе в Магнитогорске или удалёнке, ожидания. Часто спрашивают про опыт работы с промышленными данными — это не обязательно, но плюс. Может всплыть вопрос про знание ICDP (Internal Cybersecurity Data Platform) или внутренних инструментов комбината, но это скорее справочный вопрос.

2. Техническое интервью (60–90 минут)

Основной фильтр. Один-два интервьюера: ведущий DS, ML-инженер, иногда технолог-эксперт. Разбирают конкретные задачи: статистика, классические ML-алгоритмы, особенности работы с временными рядами, методы аномалий. Часто просят на месте обсудить кейс: «есть данные с конвертера, как ты построишь модель прогноза содержания углерода в стали?». Параллельно проверяют SQL и базовый Python.

3. Кейс-интервью / лайв-кодинг (60–90 минут)

Часто в форме реальной задачи: дают синтетические или анонимизированные данные, просят за час построить базовое решение и обосновать выбор подхода. Иногда — обсуждение реального проекта из портфолио кандидата с детальными вопросами по архитектуре решения, метрикам, ошибкам валидации.

4. Финал с руководителем (60 минут)

Здесь акцент на зрелости, опыте, мотивации. Кандидата спрашивают о приоритетах, работе с технологами, готовности учиться металлургической специфике. Часто разговор уходит в обсуждение конкретных проектов из вашего портфолио. Иногда есть отдельная беседа с куратором направления (например, главный технолог), который оценивает, насколько кандидат сможет говорить на одном языке с производственниками.

Особенности по командам {#osobennosti-po-komandam}

Доменное производство

Челенджи: оптимизация работы доменных печей, прогноз качества чугуна, контроль расхода кокса и сырья. Технологии: временные ряды, классический ML, методы оптимизации, иногда reinforcement learning. Кому подойдёт: DS с интересом к долгосрочным задачам и готовностью работать рука об руку с технологами.

Сталеплавильное производство

Челенджи: конвертерное и электросталеплавильное производство, прогноз содержания углерода и легирующих, оптимизация продувки. Технологии: временные ряды, ансамбли моделей, иногда онлайн-обучение. Кому подойдёт: DS с сильной статистикой и любовью к коротким циклам обратной связи (плавка — это десятки минут).

Прокатное производство

Челенджи: прогноз дефектов, оптимизация скоростей и температур, контроль геометрии. Технологии: Computer Vision (поверхность проката), классический ML, временные ряды. Кому подойдёт: DS с опытом в CV или готовностью его быстро освоить, аккуратный к сложным потокам данных.

Бизнес-аналитика и логистика

Челенджи: прогноз спроса, оптимизация цепочек поставок, маркетплейс B2B-продаж, ценовые модели. Технологии: Python, SQL, классические ML-модели, BI-инструменты. Кому подойдёт: DS с интересом к коммерческой аналитике, прогнозированию и работе с маркетингом.

Что ММК ценит в Data Scientist {#chto-mmk-tsenit}

В ММК ценят DS, который видит производство целиком: понимает, что модель — это часть техпроцесса, и её внедрение требует тщательной работы с эксплуатацией, ИТ, технологами и регуляторами. Сильный кандидат говорит про задачу через метрики бизнеса и эксплуатации: «модель снижает расход электроэнергии на дуговой печи на X%, эффект Y миллионов рублей в год; внедрение требует доработки SCADA и регламента». Слабый — рассказывает только про метрики на холдаут-выборке.

Простой пример. Постановка «предсказать обрывы полосы на прокатном стане» — сильный DS уточняет: «обрыв — это какое именно событие (механическое, тепловое)? как часто (раз в неделю, раз в смену)? какие параметры доступны заранее (sensor data в реальном времени, лабораторные анализы заготовки, история ремонтов)? в каком горизонте важен прогноз: за 5 минут для подготовки или за час для смены режима?». Только после этого он начинает строить модель.

ММК также ценит способность DS вести длинный проект. От первого прототипа до production может пройти 6–12 месяцев: за это время важно не потерять фокус, не сдаться при первой неудаче, выстроить нормальный pipeline, защищать решение перед стейкхолдерами. Это требует не только технических навыков, но и зрелости в коммуникациях.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план {#kak-gotovitsya-plan}

Подготовка строится в три фазы. Первая — общая база: Python (NumPy, Pandas, scikit-learn), SQL уверенного уровня, математическая статистика (доверительные интервалы, гипотезы, базовая вероятность), классические ML-алгоритмы (линейные модели, деревья, бустинги, базовые нейросети), методы оценки моделей. Это критично — без этого дальше не пройти.

Вторая фаза — индустриальная специфика. Изучите особенности временных рядов в промышленности: сезонность смен, шумы датчиков, пропуски, дрейф распределения. Прочитайте про методы predictive maintenance, аномалии (Isolation Forest, autoencoders), Bayesian optimization для оптимизации режимов. Полезно посмотреть кейсы металлургов на конференциях DataFest, Smart Industry, AI Journey. Подключите тренажёр Карьерник — короткие 10-минутные сессии по SQL, статистике и ML удобны для поддержания формы перед интервью.

Третья фаза — личные кейсы. Подготовьте 2–3 истории из карьеры в формате STAR. Если индустриального опыта нет, сделайте pet-проект с временными рядами: датасеты есть на Kaggle (energy, manufacturing, sensor data). Подготовьте отдельную историю про конфликт метрики и бизнес-результата — в ММК это любимая тема. Прорепетируйте ответы на вопросы про работу с технологами: «как ты будешь объяснять решение модели тому, кто работает с печью 30 лет?».

Частые ошибки {#chastye-oshibki}

  • Кандидат говорит про модели абстрактно, без привязки к данным и физическому смыслу.
  • Игнорирование процесса. DS, не знающий разницы между конвертером и доменной печью на старшие грейды, выглядит как «человек, которому всё равно».
  • Слабая работа с временными рядами: data leakage, неправильный split, отсутствие учёта сезонности и смен.
  • Незнание базовой статистики. На вопросы про p-value, доверительный интервал, статистическую мощность ждут уверенных ответов.
  • Слабый SQL — производственные данные в основном лежат в SQL-хранилищах, и DS обязан уметь сам собрать выборку.
  • Слишком общий рассказ о проектах: «обучил модель, получил метрику». Без описания данных, валидации, причин выбора подхода — этого мало.

Связанные темы {#svyazannye-temy}

FAQ {#faq}

Сколько готовиться?

Для среднего грейда DS — 5–8 недель при наличии 1–2 лет опыта. Если опыт смежный (BA, разработчик, инженер) или академический — 3–5 месяцев на освоение Python, SQL, ML и базовой статистики.

Нужен ли промышленный опыт?

Желателен, но не обязателен. Если у вас сильная математическая база и понятные ML-проекты, индустриальную специфику можно освоить за пару месяцев на рабочем месте. ММК это понимает и берёт людей из IT, банков и научных институтов.

Какой стек у ММК?

Python (Pandas, NumPy, scikit-learn, бустинги), временные ряды (statsmodels, Prophet, иногда LSTM/Transformer), PyTorch или TensorFlow для CV, MLflow для трекинга. SQL уровня уверенного владения — Oracle, Postgres, иногда специализированные промышленные хранилища.

Возможна ли удалёнка?

Зависит от направления. Часть позиций — гибрид (Магнитогорск/Москва), часть — полная удалёнка с командировками. Конкретно уточняйте у рекрутера.

Какие книги и ресурсы помогают?

Hastie, Tibshirani, Friedman «The Elements of Statistical Learning», курсы по временным рядам, материалы DataFest и Smart Industry, кейсы металлургов на AI Journey и Хабре. Для CV — стандартные курсы (Stanford CS231n, Fast.AI).

Статья основана на публичных источниках: вакансиях, отзывах кандидатов на open-площадках, профильных сообществах и общих практиках найма в промышленных компаниях. Конкретные процессы и требования могут отличаться от описанных и меняются со временем — уточняйте детали у рекрутера.