Собеседование на Data Engineer в Полюс: этапы, IoT, ETL, гео-данные
В этой статье: Почему Полюс · Этапы собеседования · Особенности по командам · Что Полюс ценит · Как готовиться: план · Частые ошибки · Связанные темы · FAQ
«Полюс» — крупнейший золотодобывающий холдинг России и один из мировых лидеров отрасли с активами в Красноярском крае, Иркутской и Магаданской областях, Якутии. Data Engineer в Полюсе — это специалист, работающий на стыке нескольких очень разных источников данных: от геопространственных систем разведки и горно-геологического моделирования до сенсорных потоков с золотоизвлекательных фабрик и SCADA-данных карьерного транспорта. Эта статья собрана из публичных описаний вакансий, отзывов кандидатов и общих практик найма в горно-добывающих компаниях — её цель помочь подготовиться, а не пересказать внутренние документы.
Почему Полюс — особенный работодатель {#pochemu-polyus-osobennyy-rabotodatel}
Полюс уникален даже в индустриальном секторе России. У компании огромные открытые карьеры (Олимпиада, Благодатное, Куранах) и сложные месторождения, где каждый процент извлечения золота — это значимая прибыль или потеря. Для DE это означает работу с очень разнообразными форматами данных: сенсорные потоки с фабрик и транспорта, гео-данные опробования и геомоделей, лабораторные анализы, ERP-данные, коммерческая отчётность.
Полюс активно инвестирует в цифровизацию: внутренний центр данных, программы по автоматизации, проекты с университетами, регулярные индустриальные конференции. У компании есть зрелая data-платформа и команды, которые занимаются её развитием. Для DE это означает интересную смесь: тяжёлая промышленность с долгими циклами, но при этом современная инженерная культура и поддержка экспериментов.
Этапы собеседования {#etapy-sobesedovaniya}
Цикл найма DE в Полюс обычно занимает 3–5 недель и проходит в 4 этапа.
1. HR-скрининг (25–40 минут)
Рекрутер уточняет опыт, стек (Python, SQL, Spark, Airflow, Kafka, ClickHouse/Greenplum), готовность к гибридному формату работы (Москва + командировки на объекты), ожидания. Часто спрашивают про опыт работы с большими объёмами данных и индустриальными системами.
2. Техническое интервью (60–90 минут)
Основной фильтр. Один-два интервьюера: ведущий DE или архитектор. Разбирают опыт по реальным кейсам: какие pipeline вы строили, какие хранилища использовали, как решали проблемы с качеством данных. Параллельно — SQL уверенного уровня, Python для ETL, основы Spark, понимание Kafka и принципов потоковой обработки.
3. Кейс-интервью / системный дизайн (60–90 минут)
В форме обсуждения архитектуры: «у нас есть N датчиков с фабрики обогащения, как ты спроектируешь конвейер?». Оценивают подход к выбору хранилища, формату данных, стратегии партиционирования, обработке поздних событий. Иногда — практическое задание на SQL или Python.
4. Финал с руководителем (60 минут)
Здесь акцент на зрелости, опыте, мотивации. Кандидата спрашивают о приоритетах, работе с DS-командами, геологами и горняками, готовности учиться горно-добывающей специфике. Часто разговор уходит в обсуждение реальных проектов из вашего портфолио.
Особенности по командам {#osobennosti-po-komandam}
Платформа данных и аналитики
Челенджи: проектирование и эксплуатация data-lake, BI-витрин, dbt-моделей, корпоративных хранилищ. Технологии: Spark, Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище, dbt. Кому подойдёт: DE с архитектурным мышлением.
Производство (фабрики обогащения, карьеры)
Челенджи: приём данных с тысяч датчиков, конвейеры в реальном времени, обработка пропусков, синхронизация с лабораторными анализами. Технологии: Kafka, Flink/Spark Streaming, historian-системы, ClickHouse для time-series. Кому подойдёт: DE с интересом к потоковой обработке и индустриальным форматам данных.
Геология и геопространственные данные
Челенджи: интеграция с горно-геологическими системами (Datamine, Surpac, Leapfrog), хранение и обработка данных опробования и керна, поддержка resource-моделирования. Технологии: Python, специализированные геопространственные форматы (PostGIS, GeoPandas), базы данных Oracle/Postgres, иногда Spark. Кому подойдёт: DE с математическим бэкграундом и интересом к нестандартным форматам.
Коммерция и финансы
Челенджи: интеграция с ERP, выгрузки для финансов и продаж, регуляторная отчётность. Технологии: SQL уверенного уровня, Airflow, Greenplum/Postgres, BI-инструменты. Кому подойдёт: DE с интересом к продуктовым витринам.
Что Полюс ценит в Data Engineer {#chto-polyus-tsenit}
В Полюсе ценят DE, который умеет видеть весь цикл «источник → платформа → потребитель» и думает про надёжность данных. Сильный кандидат на интервью говорит про конвейеры через SLA, мониторинг, документацию: какие проверки качества данных, какие алерты, как организован on-call, какие технические долги остались.
Простой пример. Постановка «нужно дать аналитикам данные о работе экскаватора Х» — слабый DE отвечает: «выгружу логи». Сильный — уточняет: «какие именно данные (геопозиция, наполнение ковша, цикл работы), какая частота, нужны ли агрегаты, какие требования к историчности и реальному времени, какой потребитель (BI, ad-hoc анализ, ML-модель), какая политика безопасности? Предложу выгрузку в Iceberg на S3 и BI-витрину на ClickHouse». Это уже разговор инженера.
Полюс также ценит DE, который умеет работать на длинных проектах. Внедрение data-платформы и поддержка длинных production-pipeline-ов — это работа на годы, не на месяцы. За это время важно не потерять фокус, выстраивать процессы, защищать решения перед стейкхолдерами.
Как готовиться: план {#kak-gotovitsya-plan}
Подготовка строится в три фазы. Первая — общая база DE: SQL уверенного уровня, Python для ETL, Spark (DataFrame API, оптимизация, broadcast joins, skewed data), основы Airflow, Kafka, форматы данных (Parquet, ORC, Avro), основы построения хранилищ.
Вторая фаза — индустриальная специфика. Изучите, как устроены historian-системы, SCADA, MES, как они интегрируются с data-lake. Если планируете в геологический блок — почитайте про геопространственные данные (PostGIS, GeoPandas), интеграции с горно-геологическими системами. Полезные источники: кейсы Полюса и других mining-компаний на DataFest, Smart Industry, AI Journey. Тренажёр Карьерник помогает поддерживать форму на SQL и базовых алгоритмах в течение подготовки.
Третья фаза — личные кейсы. Подготовьте 2–3 истории из карьеры в формате STAR. Сделайте отдельный кейс про проблему с качеством данных или производительностью pipeline и её решение. Подготовьте «слабую» историю — где что-то пошло не так и что вы из этого вынесли.
Частые ошибки {#chastye-oshibki}
- Кандидат говорит про конвейеры абстрактно, без объёмов и частот.
- Незнание базовых форматов и трейдоффов: Parquet vs CSV, когда оправдан Avro.
- Слабый SQL и нежелание думать о плане выполнения.
- Игнорирование data quality. DE без привычки писать проверки — это головная боль для команды.
- Поверхностное знание Spark: путаница в lazy evaluation, отсутствие понимания shuffle.
- Слишком общий рассказ о проектах. Без описания объёмов, SLA, проблем и решений — этого мало.
Связанные темы {#svyazannye-temy}
- Собеседование на DS в Полюс
- Собеседование на DE в Норникель
- Собеседование на DE в Северсталь
- Собеседование на DE в ММК
- Собеседование на DE в ЕВРАЗ
FAQ {#faq}
Сколько готовиться?
Для среднего грейда DE — 4–6 недель при 1–2 годах опыта. Для геологического направления добавьте 3–6 недель на освоение геопространственных форматов и горно-геологических систем.
Нужен ли горно-геологический бэкграунд?
Желателен для геологического направления, но не обязателен. Полюс готов взять сильного DE из IT и научить специфике за 3–6 месяцев. Для производственных задач горно-геологический бэкграунд не критичен.
Какой стек у Полюса?
Python, SQL, Spark (PySpark), Airflow, Kafka, ClickHouse, Greenplum, S3-совместимое хранилище. Для геологии — PostGIS, GeoPandas, интеграции с Datamine/Surpac/Leapfrog.
Где находятся объекты?
Основные — Красноярский край, Иркутская и Магаданская области, Якутия. Большинство DE-вакансий — в Москве с возможными командировками. Бывают локальные позиции на площадках.
Какие книги и ресурсы помогают?
Kleppmann «Designing Data-Intensive Applications» как универсальная база. Документация Spark, Kafka, ClickHouse. Кейсы Полюса и других mining-компаний на AI Journey, DataFest и Хабре.
Чем DE в Полюсе отличается от DE в банке?
В банке — табличные данные, строгая регуляторика, большие транзакционные потоки. В Полюсе — смесь high-frequency сенсорных данных, гео-данных и бизнес-данных, индустриальные источники, длинные истории. База DE близкая, но домен сильно специфичный.
Что особенного в работе с геопространственными данными?
Главное отличие от обычных табличных — пространственные индексы и операции (точка в полигоне, пересечение, ближайший сосед, kriging). PostGIS — отраслевой стандарт для PostgreSQL, GeoPandas — для Python. На больших объёмах используют Spark + Sedona или специализированные форматы (GeoParquet). На собеседовании плюс, если вы понимаете, почему обычный B-tree индекс не подходит для пространственных запросов и зачем нужны R-tree или GiST.
Какие задачи DE связаны с safety и ESG-отчётностью?
Полюс — публичная компания и активно отчитывается по ESG-метрикам: расход энергии, выбросы, безопасность работ. Для DE это означает строительство pipeline-ов под регулярную отчётность, аккуратное хранение исторических данных, проверки качества и соответствия определениям метрик. Часть данных идёт из специализированных систем (учёт энергии, мониторинг окружающей среды), и DE строит для них отдельные конвейеры с особыми требованиями к надёжности.
Какие книги по геоданным помогут на собеседовании?
«PostGIS in Action» Obe и Hsu — хорошая практическая база по пространственным запросам. Документация GeoPandas и Apache Sedona — для Python и Spark. Из общеинженерной литературы — Kleppmann для системного дизайна и Eric Redmond «Seven Databases in Seven Weeks» для общего понимания специализированных хранилищ.
Статья основана на публичных источниках: вакансиях, отзывах кандидатов на open-площадках, профильных сообществах и общих практиках найма в горно-добывающих компаниях. Конкретные процессы и требования могут отличаться от описанных и меняются со временем — уточняйте детали у рекрутера.