Собеседование на Data Scientist в Северсталь: этапы, индустриальные задачи, ошибки

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Северсталь — один из крупнейших российских металлургических и горнодобывающих холдингов с собственным IT-направлением «Северсталь-Инфоком» и активной программой цифровизации. Data Scientist в Северстали — это специалист, который чаще всего работает с временными рядами от датчиков на доменных печах и прокатных станах, оптимизирует расходы сырья и энергии, помогает технологам подбирать рецептуры и режимы, или занимается визуальным контролем качества проката. Эта статья собрана из публичных описаний вакансий, отзывов кандидатов и общих практик найма в промышленных компаниях — её цель помочь подготовиться, а не пересказать внутренние документы.

Почему Северсталь — особенный работодатель {#pochemu-severstal-osobennyy-rabotodatel}

Металлургия — это не та индустрия, где данные «появились вчера». Каждая печь, каждый стан, каждая линия проката оснащены датчиками температуры, давления, состава газов, скорости, толщины и десятками других параметров. В сумме это десятки терабайт данных в день, история которых уходит на годы назад. Поэтому Data Scientist в Северстали приходит в среду, где данных много, они качественные, но при этом очень специфические: их интерпретация требует понимания процесса.

Северсталь активно инвестировала в цифровизацию: внутренние платформы данных, центры компетенций по машинному обучению, программы оптимизации производственных процессов. Для DS это означает интересную смесь: с одной стороны, тяжёлая промышленность с многолетними технологиями; с другой — современные ML-инструменты, MLOps-практики, периодические партнёрства с университетами и стартапами. Это редкая комбинация, и она привлекает в команду людей, которые хотят видеть, как ML-модель экономит миллионы рублей в месяц на расходе кокса или повышает выход годного проката на десятые доли процента.

Этапы собеседования {#etapy-sobesedovaniya}

Цикл найма DS в Северстали обычно занимает 3–5 недель и проходит в 4 этапа.

1. HR-скрининг (25–40 минут)

Рекрутер уточняет опыт, домены (временные ряды, CV, табличные данные), знание стека (Python, ML-фреймворки, базы данных), готовность к работе в Череповце, Москве или гибридном формате. Спрашивают, есть ли индустриальный опыт — это не обязательно, но плюс. Часто обсуждают мотивацию: почему именно металлургия, а не очередной банк.

2. Техническое интервью (60–90 минут)

Основной фильтр. Один-два интервьюера: ведущий DS или ML-инженер. Разбирают конкретные задачи: статистика (доверительные интервалы, гипотезы, ошибка измерения), классические ML-алгоритмы (деревья, бустинг, регрессии), особенности работы с временными рядами (сезонность, тренды, шумы, особенности промышленных данных). Часто просят на месте обсудить кейс: «есть датчик температуры в печи, как ты построишь модель аномалий?». Параллельно проверяют SQL: уверенный уровень с оконными функциями.

3. Кейс-интервью / лайв-кодинг (60–90 минут)

Часто в форме реальной задачи: дают синтетические данные (или анонимизированные), просят за час построить базовое решение и обосновать выбор подхода. Может быть алгоритмическая задача средней сложности или практическое задание на feature engineering. Иногда — обсуждение чужого решения: «вот код модели, что не так и как улучшить?».

4. Финал с руководителем / архитектором ML (60 минут)

Здесь акцент на зрелости, опыте, мотивации. Кандидата спрашивают о приоритетах, как он работает с технологами и продакшн-командой, как доводит модель от прототипа до промышленной эксплуатации. Часто разговор уходит в обсуждение конкретных проектов из вашего портфолио: что именно вы делали, какие сложности возникали, какие метрики вы показывали.

Особенности по командам {#osobennosti-po-komandam}

Predictive maintenance и аномалии

Челенджи: прогноз отказов оборудования, аномалии в показаниях датчиков, оптимизация графиков ремонтов. Технологии: Python (NumPy, Pandas, SciPy), классические ML-модели, методы для временных рядов (Prophet, ARIMA, нейросетевые), специализированные платформы для промышленной аналитики. Кому подойдёт: DS с интересом к временным рядам, статистике, инженерной интуиции. Сильный плюс — опыт работы с грязными промышленными данными.

Оптимизация процессов

Челенджи: подбор режимов работы оборудования, оптимизация расхода сырья и энергии, рецептуры марок стали. Технологии: методы оптимизации (Bayesian optimization, surrogate models), классический ML, иногда reinforcement learning. Кому подойдёт: DS с математическим бэкграундом и интересом к operations research. Здесь часто требуется тесная работа с технологами.

Computer Vision

Челенджи: контроль качества поверхности проката, идентификация дефектов, безопасность персонала. Технологии: глубокое обучение (CNN, ViT), фреймворки PyTorch/TensorFlow, инструменты разметки данных. Кому подойдёт: DS с опытом в CV и готовностью работать с очень специфическими датасетами (дефекты редкие, разметка дорогая).

Бизнес-аналитика и DS-продукты

Челенджи: прогноз спроса на продукцию, оптимизация логистики, ценовые модели на B2B-рынке. Технологии: Python, SQL, BI-инструменты, классические ML-модели. Кому подойдёт: DS с продуктовым уклоном и опытом в коммерческой аналитике.

Что Северсталь ценит в Data Scientist {#chto-severstal-tsenit}

В промышленной компании цена ошибки модели обычно высокая: некорректный прогноз может стоить остановки оборудования, перерасхода сырья или испорченной партии продукции. Поэтому от DS ждут не только сильной математики, но и инженерной зрелости — умения проверять данные на адекватность, понимать физический смысл задачи, продумывать поведение модели в нестандартных сценариях.

Сильный кандидат на интервью говорит про задачу через бизнес-результат: «модель снижает расход кокса на X%, что в рублях даёт Y миллионов в месяц, при этом погрешность измерений ограничивает потолок улучшения значением Z». Он понимает, что в металлургии редко бывает «больше данных — лучше модель»: важно правильно собрать выборку, учесть особенности процесса, не полагаться слепо на красивые метрики из ноутбука. Слабый кандидат рассказывает про задачу абстрактно: «обучил градиентный бустинг, получил ROC-AUC 0.92» — без объяснения, что эта метрика значит в производственных терминах.

Простой пример. Постановка «предсказать брак на линии проката» — сильный DS уточняет: «брак — это что именно: волосистость поверхности, трещины, отклонения геометрии? как часто они возникают (1% или 0.01%)? сколько стоит ложный positive vs ложный negative? на каком горизонте важен прогноз: 30 секунд для остановки или 5 минут для регулировки режима?». Только после этого он строит модель.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план {#kak-gotovitsya-plan}

Подготовка к DS-собеседованию в Северстали строится в три фазы. Первая — общая база: Python (NumPy, Pandas, scikit-learn), SQL уверенного уровня (JOIN, оконные функции, агрегации), математическая статистика (доверительные интервалы, проверка гипотез, базовая теория вероятностей), классические ML-алгоритмы (линейные модели, деревья, бустинги, базовые нейросети), методы оценки моделей.

Вторая фаза — индустриальная специфика. Изучите особенности временных рядов в промышленности: сезонность смен, шумы датчиков, пропуски данных, дрейф распределения. Прочитайте про методы predictive maintenance, аномалии (Isolation Forest, autoencoders), Bayesian optimization для оптимизации режимов. Полезно посмотреть открытые материалы и кейсы от металлургических компаний на конференциях DataFest, Smart Industry, AI Journey. Параллельно поддерживайте форму на тренажёре Карьерник — короткие сессии по SQL, статистике и ML помогают не упустить базовые темы.

Третья фаза — личные кейсы. Подготовьте 2–3 истории из карьеры в формате STAR: ситуация, задача, действия, результат. Если у вас нет индустриального опыта, опишите свои pet-проекты или академические работы, которые могут быть применимы (временные ряды на любых данных, CV-проекты, оптимизация). Сделайте отдельный кейс про конфликт между метрикой модели и бизнес-результатом — это любимая тема в Северстали.

Частые ошибки {#chastye-oshibki}

  • Кандидат говорит про модели абстрактно, без привязки к данным и бизнес-смыслу. В промышленности это режет глаз: интервьюер ждёт инженерной осмысленности.
  • Игнорирование физики процесса. DS, который строит модель температуры в печи без понимания, какие параметры на неё реально влияют, не пройдёт техническое интервью.
  • Слабая работа с временными рядами: путаница в split-стратегиях, валидация на будущем (data leakage), отсутствие учёта сезонности и смен.
  • Незнание базовой статистики. Кандидат, который не помнит разницу между p-value и доверительным интервалом, на старшие грейды не проходит.
  • Слабый SQL. Промышленные данные в основном лежат в SQL-хранилищах, и DS обязан уметь сам собрать выборку, а не «дождаться аналитика данных».
  • Слишком общий рассказ о проектах: «обучил модель, получил высокую метрику». Без объяснения данных, валидации, причин выбора подхода — этого мало.

Связанные темы {#svyazannye-temy}

FAQ {#faq}

Сколько готовиться?

Для среднего грейда DS — 5–8 недель при наличии 1–2 лет опыта. Если опыт смежный (BA, разработчик, инженер) или академический — 3–5 месяцев на освоение Python, SQL, ML и базовой статистики.

Нужен ли промышленный опыт?

Желателен, но не обязателен. Если у вас сильная математическая база и понятные ML-проекты, индустриальную специфику можно освоить за пару месяцев на рабочем месте. Северсталь это понимает и берёт людей из IT/банков с интересом к промышленности.

Какие ML-фреймворки нужны?

Базовый стек: scikit-learn, PyTorch или TensorFlow для CV/DL, XGBoost/LightGBM/CatBoost для табличных задач, statsmodels или Prophet для временных рядов. Бонусом — опыт работы с MLflow или аналогами для трекинга экспериментов.

Чем DS в Северстали отличается от DS в банке?

В банке — массовые табличные данные, много мошенничества и кредитного риска, быстрые A/B-тесты. В Северстали — временные ряды от датчиков, длинные циклы внедрения, тесная работа с технологами, физическая интерпретация моделей. Стек ML пересекается, но домены и темп проектов разные.

Какие книги и ресурсы помогают?

Hastie, Tibshirani, Friedman «The Elements of Statistical Learning», курсы по временным рядам, материалы DataFest и Smart Industry, кейсы Северстали на AI Journey и Хабре. Для CV — стандартные курсы (Stanford CS231n, Fast.AI).

Статья основана на публичных источниках: вакансиях, отзывах кандидатов на open-площадках, профильных сообществах и общих практиках найма в промышленных компаниях. Конкретные процессы и требования могут отличаться от описанных и меняются со временем — уточняйте детали у рекрутера.