Собеседование на Data Engineer в Роснефть

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Роснефть — особенный работодатель для DE

Роснефть — крупнейшая нефтяная компания России: тысячи скважин по всем регионам, десятки нефтеперерабатывающих заводов, сеть АЗС, активные R&D-проекты по цифровому месторождению, центр исследований РН-ЦИР. Для Data Engineer это специфический контекст: построение data lake промышленных и геологических данных, интеграция с системами upstream/downstream/розницей, цикл проектов длинный, и compliance — критическая часть работы.

Главные DE-домены: построение data lake промышленных данных (скважины, телеметрия УЭЦН, ГТМ); интеграция с PI System и SCADA; обработка геофизических данных (сейсмика, каротажи) — большие объёмы (петабайты); pipeline для R&D-команд РН-ЦИР; ETL для корпоративных витрин (ERP, документооборот, кадры); pipeline для аналитики АЗС и программы лояльности; pipeline для ESG-отчётности (выбросы, экология). Часть проектов в РН-Уфанипи — крупные ML-инфраструктурные.

Стек: Oracle (наследие АСУТП и ERP) + Hadoop/HDFS + Greenplum + ClickHouse для аналитики + специализированные геологические системы (Petrel, GSLIB); Airflow + dbt + Spark; Kafka + специализированные коннекторы к SCADA; PI System. Часть legacy на Informatica и SAS, активно мигрируется. DE-команда — крупная, плотно работает с инженерами эксплуатации и R&D-командами.

Актуальные вакансии — на hh.ru и сайте Роснефти (включая РН-ЦИР, РН-Уфанипи).

Информация основана на публичных источниках и опыте кандидатов. Команды Роснефти используют разные процессы — для ролей с допусками обязательна СБ, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 5-8 недель, 4-6 этапов. Процесс корпоративный с тестовым: HR, тестовое, техническое интервью, профильное интервью с заказчиком, финал, СБ для ролей с допусками.

1. HR-скрининг (30-45 минут)

Рекрутер уточняет: production-опыт DE (от 2-3 лет, желательно с big-data или промышленным контекстом), знание классического и big-data DWH-стека (Hadoop, Spark), мотивацию идти в Роснефть, ожидания по компенсации и формату (Москва, Тюмень, Уфа). Готовь питч на 90 секунд про самый зрелый production-pipeline.

2. Тестовое задание (5-10 дней)

Часто для middle+ позиций: реальный кейс — pipeline для каротажных данных, расчёт KPI добычи по фонду скважин, реконсиляция данных PI System с финансовой отчётностью. Защита тестового — на следующем этапе.

3. Техническое интервью / SQL и архитектура (60-90 минут)

Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, оптимизация запросов на огромных временных рядах, partitioning по времени и скважинам, Oracle hints), модели данных (звезда, снежинка, SCD типы, time-series-specific схемы для каротажей), batch vs streaming, CDC, data quality. Специфический вопрос: «как ты бы построил pipeline для обработки сейсмических данных размером петабайт с распределённым хранением».

Подготовка: SQL для DE, Spark deep dive, Data modeling.

4. Python + SQL live coding (60-90 минут)

Задачи прагматичные: 1-2 на SQL (оконки, JOIN, оптимизация на временных рядах), 1-2 на Python (pandas, PySpark, простые ETL, обработка пропусков). Часто живой кейс: «дам тебе схему таблиц скважин и каротажных данных, посчитай дебит и обводнённость по фонду». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python + PySpark basics.

Подготовка: SQL для DE, Spark deep dive.

5. Профильное интервью с заказчиком (90 минут)

Беседа с геологом, инженером, техническим руководителем или R&D-руководителем РН-ЦИР. Темы: как ты понимаешь промышленный контекст, как договариваешься с геофизиками и инженерами, как обеспечиваешь корректность данных для R&D-проектов. STAR-формат: расскажи про длинный научно-технический проект.

6. Финал / СБ + оффер (1-3 недели)

Согласование оффера, проверка СБ (особенно для ролей с доступом к геологическим, добычным, проектным данным).

Особенности по командам

Upstream / Data lake скважин. Команда занимается построением data lake промышленных данных: телеметрия УЭЦН, ГТМ, дебитомеры. Стек — Python + Spark + Hadoop/HDFS + Hive/Iceberg + интеграция с PI System. Главные челленджи: большие объёмы (миллиарды точек в день с тысяч скважин), необходимость reconcile с метрологией, длинные циклы согласования. Подойдёт DE с big-data опытом или промышленным фоном.

Геология и R&D (РН-ЦИР, РН-Уфанипи). Команды, занимающиеся data layer для геологических моделей: сейсмика (петабайты), каротажи, история разработки. Стек — Spark + специализированные геологические системы (Petrel, GSLIB) + HDFS + Iceberg/Hudi. Челлендж — данные сложные, требуют геологического понимания, проекты длинные. Подойдёт DE с физико-математическим или геолого-инженерным бэкграундом.

Downstream / переработка. Команда по pipeline для НПЗ: MES, APC, мониторинг качества. Стек — Spark + Greenplum + ClickHouse + специализированные системы. Подойдёт DE с процессной автоматизацией или energy-фоном.

Розничная сеть АЗС. Команда занимается pipeline для АЗС: чеки, программа лояльности, динамическое ценообразование, антифрод. Стек — Greenplum + ClickHouse + Kafka + интеграция с POS АЗС. Подойдёт DE с опытом в ритейле.

Корпоративные витрины (ERP). Команда отвечает за integration ERP, документооборота, кадров. Стек — Oracle + Airflow + dbt + интеграции с SAP/1С. Подойдёт DE с корпоративным background.

Что Роснефть ценит в DE

Промышленный или научный контекст. Опыт в нефтегазе, геофизике, машиностроении — большой плюс.

Big-data опыт. Для R&D и upstream команд знание Hadoop/Spark/Iceberg — мощный сигнал.

Документация и научная строгость. В РН-ЦИР документация — часть продукта. Хаотичные схемы — красный флаг.

Weak vs strong на архитектурном кейсе. Слабый ответ: «возьмём S3 + Iceberg для сейсмических данных». Сильный ответ: «сейсмические данные — петабайты SEG-Y файлов, доступ через геофизические инструменты (Petrel, OpenVDS). Архитектура: HDFS/Iceberg-on-S3 как основное хранилище + кэш на быстрых SSD для активных кубов + интеграция через специализированные коннекторы (OSDU, OpenVDS). Метаданные в каталоге Hive Metastore с указанием версии сейсмической обработки. Lineage до геологической модели обязательно. Партиционирование по площади и году съёмки. Для R&D-команд — отдельный sandbox с copy-on-read для экспериментов».

Готовность к корпоративной среде. Роснефть — большая ВИНК.

Self-management и проектная зрелость. Циклы длинные. DE, который теряется без ежедневной обратной связи, рассматривается слабее.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 6-10 недель до планируемого собеса:

  1. Неделя 1-2 — SQL deep dive + big-data. SQL Medium-Hard 30+ задач, Hadoop/HDFS basics, Spark deep dive (RDD vs DataFrame, оптимизация). Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы за месяц закрыть пробелы по SQL для time-series задач.
  2. Неделя 3 — Современный data stack и Lakehouse. Iceberg, Hudi, Delta Lake basics. Airflow patterns, dbt. Kafka basics.
  3. Неделя 4 — Нефтегаз и геология контекст. Прочитай статьи РН-ЦИР, Газпром нефти, Татнефти, СИБУРа про data infrastructure. Запомни понятия: дебит, обводнённость, УЭЦН, ГРП, каротаж, SEG-Y, ГТМ, OPC-UA, PI System.
  4. Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: data lake скважин на петабайты, сейсмический data lake, predictive maintenance УЭЦН, аналитика АЗС, корпоративные витрины. Структура — требования → источники → транспорт → процессинг → витрина → SLA. Spark deep dive.
  5. Неделя 6 — Тестовое + защита. Если есть тестовое, сделай аккуратно с документацией и защитой решения.
  6. Неделя 7-10 — Mocks и behavioral + СБ-документы. Mock-интервью, 5-7 STAR-историй: конфликт с геофизиком/инженером, факап в проде, длинный compliance-проект.

Частые ошибки

Не знают big-data стек. Кандидат на собес в РН-ЦИР рассказывает только про Greenplum + Airflow. Для R&D и upstream — нужны Hadoop, Spark, Iceberg/Hudi.

Игнорируют edge и unreliable connectivity. SCADA-данные приходят с промплощадок. Кандидат, который проектирует «как для офиса», теряет балл.

Не разбираются в нефтегаз-терминологии. «Что такое каротаж, СЕГ-Y, ГТМ?» — кандидат теряется.

Не думают про reconciliation с метрологией. В промышленности расхождение данных с метрологическим учётом — это юридическая проблема.

Не задают вопросы про объёмы и compliance. На кейсе сразу — стек, а не «сколько данных, какие SLA, какие требования регуляторов». Это первый фильтр.

Связанные темы

FAQ

Удалёнка в Роснефти для DE?

Преимущественно офис в Москве (центральный офис, РН-ЦИР), Тюмени, Уфе. Полная удалёнка возможна редко.

Зарплатные вилки 2026?

Зависит от ДО. Middle DE: 230-380k. Senior: 380-600k. Lead — выше, особенно в R&D и upstream-направлениях.

Нужен ли английский?

Базовый — для документации. Для R&D с зарубежной литературой — плюс.

Сколько этапов?

4-6 этапов, 5-8 недель из-за corporate-согласований и СБ.

Реально ли пройти без промышленного опыта?

Сложно для R&D и upstream. Корпоративные витрины ERP — доступнее для DE из любой индустрии.

Какие книги и ресурсы помогут подготовиться?

«Designing Data-Intensive Applications» Мартина Клеппманна, документация Apache Iceberg/Hudi, обзоры по petroleum-engineering data infrastructure (OSDU, OpenVDS), SPE Journal. По SQL — задачник Карьерника.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по ДО.