Собеседование на Data Scientist в Роснефть
Содержание:
Почему Роснефть — особенный работодатель для DS
Роснефть — крупнейшая нефтяная компания России: тысячи скважин по всем регионам, десятки нефтеперерабатывающих заводов, сеть АЗС, активные R&D-проекты по цифровому месторождению. Для Data Scientist это работа в очень специфическом окружении: задачи начинаются от прогноза дебита скважины и интерпретации сейсмических данных и доходят до предиктивного сервиса насосного оборудования и розничной аналитики АЗС.
Главные ML-домены: прогноз дебита и анализ продуктивности скважин (production forecasting); классификация и интерпретация коллекторов по сейсмическим данным (помощь геофизикам); предиктивный сервис УЭЦН и насосного оборудования; оптимизация режимов работы нефтеперерабатывающих установок; розничная аналитика АЗС (трафик, средний чек, программа лояльности «Роснефть»); HR-аналитика (десятки тысяч сотрудников); ESG-аналитика и экологический контроль через спутники; кибербез и аномалии в SCADA. NLP — точечно (договорная документация), CV — большая роль (сейсмика, спутниковые снимки, дроны).
Стек: Python + Catboost + LightGBM + scikit-learn + Prophet/statsmodels; PyTorch для CV-задач (сейсмические кубы, спутниковые снимки, фото оборудования); специализированные геологические библиотеки (GSLIB, Petrel-интеграции); Spark и Hadoop поверх SCADA-данных; реляционные СУБД (Oracle) рядом с современным DWH; MLflow и собственные инструменты для трекинга. Архитектура — гибрид классического энтерпрайз-DWH с активной модернизацией ML-сегментов и сильной R&D-частью в РН-ЦИР (центре исследований и разработок).
Актуальные вакансии — на hh.ru и сайте Роснефти (включая ДО — РН-ЦИР, РН-Уфанипи и др.).
Информация основана на публичных источниках и опыте кандидатов. Команды Роснефти и её дочерних компаний используют разные процессы — формат, этапы и компенсация зависят от ДО и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 5-8 недель, 4-6 этапов. Процесс корпоративный с тестовым заданием и часто с защитой проекта: HR, тестовое, техническое интервью, профильное интервью с заказчиком, финал и СБ-проверка для ролей с допусками к промышленным или геологическим данным.
1. HR-скрининг (30-45 минут)
Рекрутер уточняет: production-опыт ML (от 2 лет, желательно с табличными или геопространственными данными), знание нефтегаз-контекста (плюс, но не обязательно), готовность работать в корпоративной среде с регламентами и SF-проверкой, мотивацию идти именно в Роснефть, ожидания по компенсации и формату. Готовь питч на 90 секунд: что делал, какие модели в проде, какой эффект.
2. Тестовое задание (5-10 дней)
Часто для middle+ позиций: реальный кейс — прогноз дебита группы скважин, классификация коллектора по каротажам, оценка эффективности участка месторождения. Дают набор данных, метрику и формат отчёта. Оцениваются качество модели, ясность отчёта, аккуратность валидации, документирование. В R&D-командах ожидают серьёзную защиту тестового на следующем этапе.
3. Техническое интервью / ML-теория (60-90 минут)
Базовая секция со старшим DS из направления. Темы: градиентный бустинг (Catboost/LightGBM, регуляризация, обработка пропусков), классические методы (логистическая и линейная регрессия с интерпретацией для геологов и инженеров, метрики, ROC-AUC vs PR-AUC при дисбалансе), feature engineering для геологических и промышленных данных, time-series (Prophet, ARIMA, sequential split), методы детекции аномалий, базы CV-классификации для R&D-команд. Часто встречаются специфические вопросы: «как ты бы оценил, что прогноз дебита переобучен», «что делать с очень разреженным распределением каротажей».
Подготовка: классическая ML, feature engineering, time series.
4. Python + SQL live coding (60 минут)
Задачи прагматичные: 1-2 на Python (pandas, базовые алгоритмы), 1-2 на SQL (агрегаты, JOIN, оконки). Часто живой кейс: «дам тебе фрейм с каротажными данными по 100 скважинам, посчитай rolling-агрегаты и найди скважины с аномальными режимами». Без LeetCode Hard. Готовиться: 20-30 SQL Medium-задач + 30 простых на pandas.
Подготовка: live coding.
5. Профильное интервью с заказчиком (90 минут)
Самая характерная секция. Заказчик — геолог, инженер, технический руководитель, руководитель направления — задаёт продуктовые вопросы: «как ты обоснуешь модель геофизику, который привык работать с интерпретацией руками», «как ты бы интегрировал прогноз дебита в существующий процесс разработки месторождения», «как объяснить модель главному инженеру». Здесь больше про коммуникацию и понимание производственного процесса, чем про математику.
6. Финал / СБ + оффер (1-3 недели)
Согласование оффера, проверка СБ (особенно для ролей с доступом к геологическим, добычным, проектным данным). Длинно, но почти без отсева — корректировки по компенсации и формату.
Особенности по командам
Upstream R&D (РН-ЦИР, РН-Уфанипи). Команды, занимающиеся геологическим моделированием, прогнозом дебита, интерпретацией сейсмики, оптимизацией разработки месторождений. Стек — Python + Catboost + PyTorch (CV для сейсмики) + специализированные геологические библиотеки + Spark. Челлендж — данные сложные, требуют геологического понимания, проекты длинные и крайне ценные для бизнеса. Подойдёт кандидатам с физико-математическим или геолого-инженерным бэкграундом плюс серьёзным ML-опытом.
Predictive maintenance УЭЦН и насосного оборудования. Команда работает с телеметрией УЭЦН (установок электроцентробежных насосов) — критичного для добычи оборудования. Прогноз отказов, оптимизация замен. Стек — Python + Catboost + autoencoders + Spark + Oracle для исторических данных. Челленджи — редкие отказы, false-positive cost, необходимость объяснять модель инженеру-механику. Подойдёт DS с инженерным бэкграундом или серьёзным опытом в табличном ML.
Downstream / переработка. Команда по оптимизации режимов нефтеперерабатывающих установок: выходы продуктов, расход реагентов, энергопотребление. Стек — Python + классический ML + OR-методы + APC (advanced process control) интеграции. Подойдёт DS с серьёзной математической подготовкой и интересом к operations research или процессному инжинирингу.
Розничная аналитика АЗС. Команда занимается аналитикой сети АЗС: трафик, средний чек, оптимизация ассортимента, программа лояльности. Стек — Catboost + Prophet + Greenplum/ClickHouse. Челлендж — большая распределённая сеть, миллионы транзакций в день, конкурентная среда. Подойдёт DS с опытом в ритейле, telco-биллинге или классической потребительской аналитике.
ESG и геомониторинг. Команда занимается анализом выбросов и состояния инфраструктуры через спутники и дроны. Стек — PyTorch + CV-модели + GIS-инструменты. Подойдёт DS с CV-фоном и интересом к геоданным.
Что Роснефть ценит в DS
Production-опыт с цифрами. История про модель в проде с количественным эффектом на бизнес-метрику. «Сделал классификатор на Kaggle» — не история. «Снизил процент незапланированных отказов УЭЦН на 18% за 6 месяцев пилота на 200 скважинах» — это история.
Промышленный или геологический контекст. Опыт в нефтегазе, машиностроении, энергетике или геофизике — большой плюс. Кандидаты из чистого e-com или fintech рассматриваются, но с пониманием, что им нужно доучивать предметную область.
Интерпретируемость и научная строгость. В Роснефти модели согласуются с инженерами и геофизиками, проверяются на физическую адекватность. R&D-команды любят хорошо валидированные результаты с пониманием статистической значимости и допусков.
Weak vs strong на System Design. Слабый ответ: «возьмём deep learning для прогноза дебита всех скважин». Сильный ответ: «начну с baseline на физических моделях (DCA — decline curve analysis) + Catboost с лагами и техническими фичами. Сравню MAPE по типам залежей. Deep learning имеет смысл, если выходим на потолок Catboost и есть достаточно данных по конкретному типу скважин. На каждом шаге метрика — не MAPE в среднем, а MAPE по типам скважин и доля прогнозов с ошибкой выше критической».
Готовность к корпоративной среде. Роснефть — большая корпорация с регламентами, согласованиями, СБ-проверками. Кандидат, который на собесе ругает «бюрократию», получит -1.
Self-management и проектная зрелость. Циклы длинные. DS, который теряется без ежедневной обратной связи, рассматривается слабее.
Как готовиться: план
За 6-10 недель до планируемого собеса:
- Неделя 1-2 — Табличный ML + спецфичи. Catboost/LightGBM (регуляризация, ordered boosting, работа с пропусками), валидация для рядов (rolling-origin), методы детекции аномалий. Прорешай 1-2 кейса с публичными промышленными или геологическими данными (NASA turbofan, SECOM, kaggle well-log). Параллельно — на Карьернике обнови базу по SQL, Python и ML: 1500+ задач, по 15-20 минут в день, за месяц закроешь пробелы по основным алгоритмам и метрикам.
- Неделя 3 — Нефтегаз-контекст. Прочитай статьи РН-ЦИР, Газпром нефти и Татнефти про DS-проекты. Запомни понятия: дебит, обводнённость, УЭЦН, ПЗП, ГРП, каротаж, фондовая база, обустройство, downstream/upstream.
- Неделя 4 — Python + SQL live coding. 20-30 SQL Medium-задач, 30 простых на pandas (groupby, merge, rolling, time-windows).
- Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: прогноз дебита, классификация коллектора по каротажу, predictive maintenance УЭЦН, оптимизация режимов установки переработки, ESG-мониторинг. Структура — бизнес → метрика → данные → модель → валидация → внедрение. ML system design.
- Неделя 6 — Производство и интерпретация. Натренируйся объяснять модель «языком инженера» и «языком геолога». Прочитай 2-3 публичных доклада по внедрению ML в нефтегазе.
- Неделя 7-10 — Тестовое + behavioral. Если есть тестовое, сделай его аккуратно с документацией. Mock-интервью, 5-7 STAR-историй: конфликт с инженером/геологом, факап в проде, длинный проект с СБ-согласованием.
Частые ошибки
Игнорируют физику и геологию. Кандидат строит модель прогноза дебита, не упоминая DCA-baseline и физические ограничения. Геофизик такую модель не подпишет.
Хайпуют deep learning на табличке. Кандидат предлагает огромную нейронку для прогноза дебита 200 скважин. На промышленных данных Catboost обычно выигрывает по cost/quality.
Не разбираются в формате данных. Каротажи — это не CSV. Без понимания LAS-форматов, SEG-Y, P&ID — продуктовое интервью провалить легко.
Не задают вопросы про данные. На кейсе сразу — модель, а не «какая частота, какие пропуски, какая метрология». Это первый фильтр.
Не думают про внедрение. Кандидаты часто фокусируются на качестве модели, забывая про то, что в Роснефти внедрение модели — это полугодовой проект с тестированием, документацией, обучением пользователей. Если на финале нет ни слова про внедрение — балл проседает.
Связанные темы
- Собеседование на Data Scientist
- Time series на собесе
- Feature engineering
- Собеседование на Data Scientist в Газпром нефть
- Собеседование на Data Scientist в Газпром
FAQ
Удалёнка в Роснефти для DS?
Преимущественно офис в Москве (центральный офис, РН-ЦИР), Тюмени, Уфе или регионах присутствия ДО. Полная удалёнка возможна редко, чаще гибрид. Для ролей с режимными данными — офис.
Зарплатные вилки 2026?
Зависит от ДО. Middle DS: 220-360k. Senior: 360-560k. Lead/Staff — выше, особенно в R&D и upstream-направлениях. Соцпакет солидный, годовая премия в формате группы.
Нужен ли английский?
Базовый — для документации и иностранных статей по геофизике и ML. Свободного говорящего обычно не требуется, команды русскоязычные. Для R&D с зарубежной литературой английский — плюс.
Сколько этапов?
4-6 этапов, 5-8 недель из-за корпоративных согласований и проверок СБ. Если процесс затягивается до 2 месяцев — нормально для крупной корпорации.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по ДО и направлениям.