Собеседование на Data Scientist в Норникель
Содержание:
Почему Норникель — особенный работодатель для DS
Норникель — крупнейший производитель никеля, палладия и платины: горно-обогатительные комбинаты в Норильске, Кольский комбинат, плавильные мощности, транспортные подразделения, проекты по электромобильности и литий-ионной батарейной цепочке. Для Data Scientist это редкий и довольно специфический работодатель: задачи крутятся вокруг горно-обогатительных процессов, металлургии, гигантских транспортных операций и заполярной инфраструктуры. Это совсем не e-com и не банк — данные приходят с датчиков и SCADA-систем, цикл проекта длинный, цена ошибки в физическом мире высокая.
Главные ML-домены: оптимизация горно-обогатительных процессов (флотация, дробление, измельчение) — небольшое улучшение извлечения металла даёт миллионы долларов в год; predictive maintenance ключевого оборудования (мельницы, насосы, конвейеры, дробилки); прогноз качества концентратов и металлов на разных переделах; CV-задачи (анализ руды по фото, контроль состояния футеровки печей, контроль безопасности в шахтах через камеры); ESG-аналитика (выбросы SO2, экологический мониторинг); логистика и оптимизация транспортного парка в условиях Заполярья; HR-аналитика для большой и территориально распределённой компании; иногда — закупочная и контрактная аналитика.
Стек: Python + Catboost + LightGBM + scikit-learn + Prophet/statsmodels; PyTorch для CV-задач (камеры в шахтах и цехах, дроны); реляционные СУБД (Oracle, PostgreSQL) рядом с современным DWH (ClickHouse, Greenplum); Spark и Hadoop поверх SCADA и MES; MLflow для трекинга; внутренние BI-инструменты. Архитектура — гибрид: классический энтерпрайз-стек плюс активная модернизация ML и data-сегментов через корпоративные digital-инициативы.
Актуальные вакансии — на hh.ru и сайте Норникеля.
Информация основана на публичных источниках и опыте кандидатов. Команды Норникеля и его комбинатов используют разные процессы — формат, этапы и компенсация зависят от направления и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 5-8 недель, 5-6 этапов. Процесс корпоративный с тестовым заданием и защитой проекта: HR, тестовое, техническое интервью, профильное интервью с заказчиком (главный технолог комбината, начальник производства, главный энергетик), финал и СБ-проверка. Часть ролей предполагает командировки в Норильск, Кольский комбинат, Дудинку.
1. HR-скрининг (30-45 минут)
Рекрутер уточняет: production-опыт ML (от 2 лет, желательно с табличными данными или time-series), знание промышленного контекста (металлургия, горное дело, машиностроение, энергетика — большой плюс), готовность к командировкам или гибриду с присутствием на производстве, мотивацию идти в Норникель, ожидания по компенсации и формату работы (Москва — головной офис, Норильск/Мончегорск — производственные центры). Готовь питч на 90 секунд про самый зрелый production-кейс.
2. Тестовое задание (5-10 дней)
Часто для middle+ позиций: реальный кейс — прогноз содержания металла в концентрате по показателям флотации, классификация типа дефекта по фото руды, прогноз отказа оборудования по телеметрии. Данные часто синтетические или анонимизированные, но формат и масштаб — реальные. Оцениваются качество модели, ясность отчёта, аккуратность валидации, документирование.
3. Техническое интервью / ML-теория (60-90 минут)
Базовая секция со старшим DS из направления. Темы: градиентный бустинг (Catboost/LightGBM — почему именно они для промышленных табличных данных, регуляризация, обработка пропусков, ordered boosting), классические методы (линейная и логистическая регрессия с интерпретацией коэффициентов — критично для общения с технологами и инженерами), feature engineering для промышленных данных (rolling stats, агрегаты по окнам, частотные характеристики), time-series (Prophet, ARIMA, sequential split), методы детекции аномалий (Isolation Forest, autoencoders, change-point), базовый CV (CNN, transfer learning) для CV-команд. Часто специфический вопрос: «как ты валидируешь прогноз качества концентрата, если измерения ASIC проводятся раз в час, а телеметрия — раз в секунду».
Подготовка: классическая ML, feature engineering, time series.
4. Python + SQL live coding (60 минут)
Задачи прагматичные: 1-2 на Python (pandas, базовые алгоритмы, обработка временных рядов с разной частотой), 1-2 на SQL (агрегаты, JOIN, оконные функции, агрегации по неравным временным интервалам). Часто живой кейс: «дам тебе фрейм с показателями флотомашины и часовыми измерениями содержания металла в концентрате, синхронизуй и найди корреляции». Без LeetCode Hard. Готовиться: 20-30 SQL Medium-задач + 30 простых на pandas.
Подготовка: live coding.
5. Профильное интервью с заказчиком (90 минут)
Самая характерная секция. Заказчик — главный технолог комбината, начальник производства, главный энергетик ДО, руководитель направления — задаёт продуктовые вопросы: «как ты обоснуешь, что эта модель безопасна для технологического процесса», «как ты бы внедрил систему рекомендаций оператору флотомашины, чтобы он реально ей пользовался», «как защитить модель перед главным инженером комбината». Здесь больше про коммуникацию, чем про математику.
6. Финал / СБ + оффер (1-3 недели)
Согласование оффера, проверка СБ (особенно для ролей с доступом к производственным данным). Корректировки по компенсации и формату работы.
Особенности по командам
Оптимизация горно-обогатительных процессов. Команда занимается флотацией, дроблением, измельчением: рекомендательные модели оператору флотомашины, прогноз качества концентрата, оптимизация реагентов. Стек — Python + Catboost + statsmodels + физические модели + Spark + Oracle. Главные челленджи: разная частота измерений (телеметрия секунды vs ASIC-измерения часа), длинный лаг между управляющим воздействием и измеримым результатом, необходимость объяснять оператору каждую рекомендацию. Подойдёт DS с инженерным или физико-математическим бэкграундом плюс серьёзным опытом в табличном ML.
Predictive maintenance тяжёлого оборудования. Команда работает с телеметрией мельниц, дробилок, насосов, конвейеров, экскаваторов. Прогноз отказов, оптимизация плановых ремонтов, снижение простоев. Стек — Python + Catboost + autoencoders + Spark + DWH. Челленджи — редкие отказы (несбалансированные классы), необходимость интерпретации для механиков, false-positive cost (остановка крупного агрегата — большие деньги). Подойдёт DS с инженерным мышлением и опытом в табличном ML.
Металлургия и прогноз качества. Команда по прогнозу качества металла на разных переделах: плавка, рафинирование. Стек — Catboost + физико-химические модели + ClickHouse. Подойдёт кандидатам с химическим или металлургическим бэкграундом плюс ML-опытом.
CV для производства и безопасности. Команда занимается анализом руды по фото и видео, контролем футеровки печей, контролем безопасности в шахтах через камеры, дронами для обхода инфраструктуры. Стек — PyTorch + классические CV-модели + GIS-инструменты. Подойдёт DS с CV-фоном и интересом к промышленному применению.
Логистика и Заполярье. Команда занимается оптимизацией транспортного парка в условиях Заполярья: маршруты, расходы топлива, аномалии при работе техники в экстремальных условиях. Стек — Python + классический ML + OR-методы. Подойдёт DS с математической подготовкой и интересом к operations research.
Что Норникель ценит в DS
Промышленный контекст. Опыт в металлургии, горном деле, машиностроении, энергетике, нефтегазе — большой плюс. Кандидаты из чистого e-com или fintech рассматриваются, но с пониманием, что им нужно доучивать предметную область.
Production-опыт. История про модель в проде с количественным эффектом на бизнес-метрику. «Снизил расход реагента флотации на 4% при сохранении качества концентрата — экономия N млн рублей в год» бьёт любую медаль на Kaggle.
Интерпретируемость. В Норникеле модели согласуются с технологами и инженерами, проверяются на физическую/химическую адекватность. Кандидат, который рассказывает только про accuracy без интерпретации, теряет балл.
Weak vs strong на System Design. Слабый ответ: «обучим LSTM на телеметрии флотомашины, и пусть оператор слушает советы». Сильный ответ: «начну с baseline: rolling statistics + физическая модель Калмана для синхронизации разнобойных измерений. Затем Catboost с лагами и физическими фичами для рекомендаций. LSTM/transformer — если выйдем на потолок и при этом я заложу процесс валидации модели технологом до релиза. Главная метрика — не MAE на тестовой выборке, а сколько раз оператор реально применил рекомендацию и сколько среднего/долгосрочного эффекта она дала».
Готовность к корпоративной среде и Заполярью. Норникель — большая корпорация с регламентами, согласованиями, СБ-проверками. Часть ролей предполагает командировки на комбинаты. Кандидат, который на собесе ругает «бюрократию» или категорически не готов к командировкам в Норильск, получит -1.
Self-management. Циклы длинные, команды распределённые. DS, который теряется без ежедневной обратной связи продакта, рассматривается слабее.
Как готовиться: план
За 6-10 недель до планируемого собеса:
- Неделя 1-2 — Табличный ML и time-series. Catboost/LightGBM (регуляризация, ordered boosting, работа с пропусками и разной частотой данных), валидация для рядов (rolling-origin), методы детекции аномалий, change-point detection. Прорешай 1-2 кейса с публичными промышленными данными (NASA turbofan, SECOM). Параллельно — на Карьернике обнови базу по SQL, Python и ML: 1500+ задач, по 15-20 минут в день, чтобы за месяц обновить теорию и не путаться в простых вопросах про регуляризацию, метрики и leakage.
- Неделя 3 — Промышленный контекст. Прочитай статьи Норникеля, СИБУРа, НЛМК и Северстали про DS-проекты в металлургии и горном деле. Запомни понятия: флотация, измельчение, рафинирование, штейн, концентрат, ASIC-измерение, MES, SCADA, OPC-UA, PI System.
- Неделя 4 — Python + SQL live coding. 20-30 SQL Medium-задач, 30 простых на pandas (groupby, merge, rolling, time-windows, resample).
- Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: оптимизация флотации, прогноз качества концентрата, predictive maintenance мельницы, контроль безопасности в шахте через CV, логистика в Заполярье. Структура — бизнес → метрика → данные → модель → валидация → внедрение. ML system design.
- Неделя 6 — Производство и интерпретация. Натренируйся объяснять модель «языком технолога» и «языком механика». Прочитай 2-3 публичных доклада про внедрение ML в металлургии и горном деле.
- Неделя 7-10 — Тестовое + behavioral. Если есть тестовое, сделай его аккуратно с документацией и защитой решения. Mock-интервью, 5-7 STAR-историй: конфликт с технологом, факап в проде, длинный проект с СБ-согласованием, история про экономический эффект.
Частые ошибки
Не понимают разную частоту данных. Кандидат строит модель с минутной телеметрией и часовыми измерениями ASIC, не упоминая resample/aggregate. На промышленных данных это первое, что должно прийти в голову.
Хайпуют deep learning на табличке. Кандидат предлагает огромную нейронку для оптимизации флотации. Не учитывает, что Catboost на правильных фичах обычно выигрывает и в добавок интерпретируем для технологов.
Игнорируют физику процесса. Модель, нарушающая физико-химические законы, технолог не подпишет. Если в ответе нет ни слова про физическую интерпретацию — балл проседает.
Не задают вопросы про данные. На кейсе сразу — модель, а не «какая частота, какие пропуски, как мы храним MES-историю, как часто меняются настройки оборудования». Это первый фильтр.
Не готовы к командировкам. Норникель — компания с производственными активами в Норильске и Мончегорске. Кандидат, который на финале говорит «командировки никогда» для большинства проектных ролей не подходит.
Связанные темы
- Собеседование на Data Scientist
- Time series на собесе
- Feature engineering
- Собеседование на Data Scientist в Газпром
- Собеседование на Data Scientist в Роснефть
FAQ
Удалёнка в Норникеле для DS?
Гибрид. Головной офис в Москве, производственные комбинаты в Норильске и Мончегорске. Полная удалёнка возможна для отдельных аналитических ролей, для проектных команд — гибрид с командировками. Уточняйте на скрининге.
Зарплатные вилки 2026?
Middle DS: 250-380k. Senior: 380-600k. Lead/Staff — выше, особенно в производственных направлениях. Компенсации за работу в условиях Заполярья — отдельная статья. Соцпакет солидный, годовая премия в формате группы.
Нужен ли английский?
Базовый — для документации, зарубежных статей и общения с международными подрядчиками. Свободного говорящего обычно не требуется, команды русскоязычные.
Сколько этапов?
5-6 этапов, 5-8 недель из-за корпоративных согласований и проверок СБ. Если процесс затягивается до 2 месяцев — нормально для крупной корпорации.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по комбинатам и направлениям.