Собеседование на Data Engineer в Газпром

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Газпром — особенный работодатель для DE

Газпром — крупнейшая газодобывающая и газотранспортная компания России: десятки месторождений, тысячи километров магистральных трубопроводов, сеть переработки и сбыта, дочерние компании по сегментам (Газпром нефть как отдельный игрок в нефтянке, Газпром Энергохолдинг в электрогенерации). Для Data Engineer это очень специфический промышленный контекст: данные приходят с тысяч SCADA-датчиков, PI System, MES, корпоративных систем (1С, SAP); цикл проектов длинный (месяцы-годы); регуляторика и compliance — критическая часть работы.

Главные DE-домены: построение SCADA-DWH (миллиарды точек телеметрии в день с компрессорных станций, ГПА, трубопроводов); интеграция с PI System (исторический временной store для промышленных данных); корпоративные витрины (ERP-данные SAP, 1С, документооборот); pipeline для предиктивного сервиса (вибромониторинг, прогноз отказов); ESG-витрины (выбросы метана, спутниковая аналитика); регуляторные витрины (Ростехнадзор, экологические нормы); миграция legacy ETL.

Стек: Oracle (наследие в АСУТП и ERP) + Greenplum + Hadoop/HDFS + ClickHouse для аналитики; Airflow + dbt + Spark; Kafka + специализированные коннекторы к SCADA (OPC-UA); PI System как источник промышленной телеметрии; внутренние Газпром-инструменты для observability. Часть legacy на Informatica и SAS, мигрируется с осторожностью. DE-команда плотно работает с инженерами эксплуатации, метрологами и compliance-функцией.

Актуальные вакансии — на hh.ru и сайте Газпрома (включая ДО).

Информация основана на публичных источниках и опыте кандидатов. Команды Газпрома и его ДО используют разные процессы — формат, этапы и компенсация зависят от ДО и грейда, для ролей с допусками обязательна СБ, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 5-8 недель, 4-6 этапов. Процесс корпоративный: HR, тестовое задание (часто), техническое интервью, профильное интервью с заказчиком (главный инженер, метролог), финал, СБ для ролей с допусками к промышленным данным.

1. HR-скрининг (30-45 минут)

Рекрутер уточняет: production-опыт DE (от 2 лет, желательно с промышленным или корпоративным контекстом), знание классического и современного DWH-стека, мотивацию идти в Газпром, ожидания по компенсации и формату (Москва, региональные центры ДО). Готовь питч на 90 секунд про самый зрелый production-pipeline с SLA.

2. Тестовое задание (3-7 дней, опционально)

Часто для middle+ позиций: реальный кейс — pipeline для SCADA-данных с буферизацией на edge, расчёт KPI для компрессорной станции, реконсиляция данных PI System с финансовой отчётностью. Защита тестового — на следующем этапе.

3. Техническое интервью / SQL и архитектура (60-90 минут)

Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, оптимизация запросов на огромных временных рядах, partitioning по времени, Oracle hints), модели данных (звезда vs снежинка, SCD типы, time-series specific схемы), batch vs streaming (для промышленной телеметрии часто гибрид), CDC, data quality. Специфический промышленный вопрос: «как ты бы построил pipeline синхронизации данных SCADA с центральным DWH с учётом периодических отключений связи на промплощадке».

Подготовка: SQL для DE, Data modeling, Kafka streaming.

4. Python + SQL live coding (60-90 минут)

Задачи прагматичные, без LeetCode Hard: 1-2 на SQL (оконки, JOIN, оптимизация на временных рядах), 1-2 на Python (pandas, простые ETL, обработка телеметрии с пропусками). Часто живой кейс: «дам тебе схему таблиц с давлением, температурой и расходом газа на компрессорной станции, посчитай KPI работы агрегата». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python.

Подготовка: SQL для DE.

5. Профильное интервью с заказчиком (60-90 минут)

Беседа с главным инженером, метрологом или техническим руководителем ДО. Темы: как ты понимаешь промышленный контекст, как договариваешься с инженерами эксплуатации, как обеспечиваешь корректность данных для регуляторов. STAR-формат: расскажи про длинный compliance-проект.

6. Финал / СБ + оффер (1-3 недели)

Согласование оффера, проверка СБ (особенно для ролей с доступом к промышленным или режимным данным). Долго, но почти не отсев — корректировки по компенсации.

Особенности по командам

SCADA-DWH и промышленная телеметрия. Команда работает с телеметрией компрессорных станций, ГПА, газоизмерительных станций, трубопроводов. Прогноз отказов, оптимизация плановых ремонтов, снижение незапланированных простоев. Стек — Python + Catboost + Spark + Hadoop + Oracle + интеграция с PI System. Главные челленджи: миллиарды точек телеметрии в день, нерегулярная связь с промплощадками, необходимость reconcile данных с метрологической отчётностью. Подойдёт кандидатам с инженерным или физическим бэкграундом плюс опытом в табличном ML.

Корпоративные витрины (ERP, SAP, 1С). Команда строит витрины для корпоративных систем: данные ERP, документооборот, кадры, финансы. Стек — Oracle + Airflow + dbt + интеграция с SAP/1С + Greenplum/ClickHouse для аналитики. Челлендж — десятки тысяч сотрудников, длинные циклы согласования. Подойдёт DE с корпоративным или ERP-опытом.

Predictive maintenance. Команда работает с проектами predictive maintenance ключевого оборудования. Стек — Kafka + ClickHouse + Spark + Catboost (ML-side) + интеграция с SCADA. Подойдёт DE с интересом к индустриальному ML.

ESG и геомониторинг. Команда занимается анализом выбросов и состояния инфраструктуры через спутники и дроны. Стек — PyTorch + CV-модели + GIS-инструменты + Spark для агрегации. Подойдёт DE с CV-фоном.

Compliance и регуляторные витрины. Команда работает с регуляторными отчётами: Ростехнадзор, экологические нормы, отчётность Минэнерго. Стек — Greenplum + Airflow + dbt + специализированные compliance-инструменты + WORM-хранилища. Подойдёт DE с regulatory-опытом.

Что Газпром ценит в DE

Промышленный контекст. Опыт в нефтегазе, машиностроении, энергетике или другом «реальном секторе» сильно ускоряет процесс. Кандидаты из чистого e-com или fintech рассматриваются, но с пониманием, что им нужно доучивать предметную область.

Production-опыт. Не Kaggle-experience, а pipeline в проде с SLA и регуляторной отчётностью. «Сделал pipeline на Kaggle» — не история. «Запустил SCADA-pipeline на 200 объектах с T+1 SLA и 99.9% доступностью за полгода» — это история.

Регуляторная зрелость. Кандидат, который понимает специфику Ростехнадзор-отчётности, метрологии, ESG — сильный сигнал.

Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём Kafka + Spark Streaming для SCADA-DWH — modern stack». Сильный ответ: «SCADA-DWH требует учитывать промышленные реалии: связь с промплощадкой может прерываться часами; данные нужно реконсилировать с метрологическими измерениями; регулятор может затребовать историю за 10+ лет. Архитектура: edge-gateway на промплощадке с локальным буфером 24 часа → синхронизация в корпоративную шину (Kafka) с idempotency → агрегация в Greenplum/ClickHouse → доказательная цепочка к WORM-хранилищу для compliance. Streaming оставляем для оперативного мониторинга оборудования, batch — для регулярных отчётов».

Готовность к корпоративной среде. Газпром — большая корпорация с регламентами, согласованиями, СБ-проверками. Кандидат, который ругает «бюрократию» в принципе, рискует получить -1.

Self-management. Циклы длинные (3-6 месяцев на проект). DE, который теряется без ежедневной обратной связи, рассматривается слабее.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 6-10 недель до планируемого собеса:

  1. Неделя 1-2 — SQL deep dive и data modeling. Оконные функции, рекурсивные CTE, оптимизация запросов на временных рядах, partitioning, индексы, EXPLAIN, Oracle deep dive (hints, materialized views для промышленных DWH). Прорешай 30 SQL Medium-Hard задач. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы.
  2. Неделя 3 — Современный data stack и промышленные интеграции. Airflow patterns, dbt, Spark, Kafka + Debezium, OPC-UA для SCADA, PI System basics.
  3. Неделя 4 — Промышленный контекст. Прочитай статьи Газпром нефти, Татнефти, СИБУРа про DS/DE-проекты в нефтегазе. Запомни понятия: ГПА, компрессорная станция, дебит, SCADA, OPC-UA, MES, PI System, MES, OEE, ESG.
  4. Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: SCADA-DWH 200 объектов, predictive maintenance pipeline, ESG-мониторинг, корпоративные витрины SAP, compliance Ростехнадзору. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Airflow patterns.
  5. Неделя 6 — Тестовое + защита. Если есть тестовое, сделай его аккуратно с документацией и защитой решения.
  6. Неделя 7-10 — Mocks и behavioral + СБ-документы. Mock-интервью, 5-7 STAR-историй: конфликт с инженером эксплуатации, факап в проде, длинная миграция, история про регуляторные требования.

Частые ошибки

Хайпуют стримингом везде. Кандидат проектирует регуляторную отчётность через Kafka Streaming. Не упоминает, что для отчёта Ростехнадзору важна не скорость, а консистентность и доказательная цепочка.

Не разбираются в промышленной терминологии. «Что такое OPC-UA, MES, OEE?» — кандидат теряется на профильном интервью.

Не думают про edge и unreliable connectivity. SCADA-данные приходят с промплощадок, связь может прерываться. Кандидат, который проектирует «как для офиса», теряет балл.

Игнорируют reconciliation с метрологией. В промышленности расхождение данных с метрологическим учётом — это не просто баг, это юридическая проблема.

Не задают вопросы про объёмы и регуляторику. На кейсе сразу — стек, а не «сколько данных в день, какие пики, какие SLA, какие требования Ростехнадзора». Это первый фильтр.

Связанные темы

FAQ

Удалёнка в Газпроме для DE?

Преимущественно офис в Москве (Газпром-Сити в Санкт-Петербурге для центрального аппарата) или в регионах присутствия ДО. Полная удалёнка возможна редко, обычно гибрид. Для ролей с доступом к промышленным данным — чаще офис.

Зарплатные вилки 2026?

Зависит от ДО. Middle DE: 230-380k. Senior: 380-600k. Lead/Staff — выше, особенно в стратегических ДО. Соцпакет солидный, годовая премия в формате группы Газпром.

Нужен ли английский?

Базовый — для документации и статей. Свободного говорящего обычно не требуется. Для R&D с зарубежной литературой — плюс.

Сколько этапов?

4-6 этапов, 5-8 недель из-за корпоративных согласований и проверок СБ.

Реально ли пройти без промышленного опыта?

Реально на middle-позиции, особенно в команды корпоративных витрин. Для SCADA-DWH и Predictive maintenance — нужно хотя бы базовое понимание промышленных протоколов и метрологии.

Какие книги и ресурсы помогут подготовиться?

«Designing Data-Intensive Applications» Мартина Клеппманна, обзоры по Industry 4.0 (Industrial IoT, MES), документация OPC-UA. По SQL и техническому минимуму — задачник Карьерника, на котором можно прокачать SQL для time-series задач.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по ДО и направлениям.