Собеседование на Data Scientist в Газпром
Содержание:
Почему Газпром — особенный работодатель для DS
Газпром — крупнейшая газодобывающая и газотранспортная компания России: десятки месторождений, тысячи километров магистральных трубопроводов, сеть переработки и сбыта, дочерние компании по сегментам (Газпром нефть как отдельный игрок в нефтянке, Газпром Энергохолдинг в электрогенерации). Для Data Scientist это совершенно другой мир по сравнению с Яндексом или e-com: задачи здесь крутятся вокруг физики процесса, телеметрии оборудования и геолого-инженерных моделей, а не вокруг кликов и конверсий. Большие данные есть — у одной компрессорной станции десятки тысяч датчиков, у скважины не меньше — но их формат и цикл совсем другие.
Главные ML-домены: предиктивный сервис и predictive maintenance турбин, компрессоров, насосного оборудования (отказ дорогой, плановый ремонт дешевле); оптимизация режимов работы магистральных газопроводов (расход топливного газа, давление, температура); геологическое моделирование и прогноз дебита скважин; HR-аналитика (большая компания, десятки тысяч сотрудников); ESG-аналитика (выбросы метана, утечки, экологический контроль через спутниковые снимки); кибербез и аномалии в SCADA-системах; иногда — корпоративные финансы и FP&A с ML-фичами. NLP — точечно (анализ договоров, обработка обращений), CV — спутники и беспилотники для контроля инфраструктуры.
Стек: Python + Catboost + LightGBM + scikit-learn + Prophet/statsmodels; PyTorch для CV-задач (спутниковые снимки, дроны); реляционные СУБД (Oracle, PostgreSQL) рядом с современными ClickHouse/Greenplum; собственные внутренние платформы; Spark и Hadoop для ETL поверх SCADA-данных. Архитектура — гибрид: классический энтерпрайз-DWH плюс активная модернизация ML-сегментов.
Актуальные вакансии — на hh.ru и сайте Газпрома (включая дочерние общества).
Информация основана на публичных источниках и опыте кандидатов. Команды Газпрома и его дочек используют разные процессы — формат, этапы и компенсация зависят от ДО (дочернего общества) и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 5-8 недель, 4-6 этапов. Процесс корпоративный: HR, тестовое задание (часто), техническое интервью, профильное интервью с заказчиком, финал. Согласования из-за размера компании занимают время, особенно для ролей с допусками к промышленным данным.
1. HR-скрининг (30-45 минут)
Рекрутер уточняет: production-опыт ML (от 2 лет, желательно с табличными данными или time-series), знание промышленного контекста (нефтегаз, машиностроение, энергетика — большой плюс), готовность работать в корпоративной среде с регламентами и SF-проверкой, мотивацию идти именно в Газпром (а не в Яндекс или банк), ожидания по компенсации. Готовь питч на 90 секунд: что делал, какие модели в проде, какой эффект.
2. Тестовое задание (3-7 дней)
Часто, особенно для middle+ позиций: реальный кейс — прогноз показателя скважины, классификация аномалии по телеметрии, оценка эффективности оборудования. Дают набор данных, метрику и формат отчёта. Оцениваются качество модели, ясность отчёта, аккуратность валидации, документирование. Не «сделай за 4 часа» — ожидают серьёзную проработку.
3. Техническое интервью / ML-теория (60-90 минут)
Базовая секция со старшим DS из команды. Темы: градиентный бустинг (Catboost/LightGBM — почему именно они для табличных промышленных данных, регуляризация, обработка категориальных и пропусков, ordered boosting), классические методы (линейная и логистическая регрессия с интерпретацией коэффициентов — критично для общения с инженерами, метрики классификации и регрессии, ROC-AUC vs PR-AUC при дисбалансе), feature engineering для промышленных данных (rolling statistics, агрегаты по окнам, FFT для частотных характеристик), time-series (Prophet, ARIMA, sequential split, anti-leakage), методы детекции аномалий (Isolation Forest, autoencoders, robust статистики, change-point detection). DL-вопросов мало, кроме CV-команд.
Подготовка: классическая ML, time series, feature engineering.
4. Python + SQL live coding (60 минут)
Задачи прагматичные, без LeetCode Hard: 1-2 на Python (структуры данных, работа с pandas, базовые алгоритмы), 1-2 на SQL (агрегаты, JOIN, оконные функции). Часто встречается живой кейс на промышленных данных: «дам тебе фрейм с показателями датчиков турбины, найди интервалы с аномальным режимом». Готовиться: 20-30 SQL-задач уровня Medium на оконки и JOIN + 30 простых задач на pandas.
Подготовка: live coding.
5. Профильное интервью с заказчиком (60-90 минут)
Самая характерная секция. Заказчик — главный инженер, технический руководитель, начальник управления — задаёт продуктовые вопросы: «как ты обоснуешь, что эта модель безопаснее для оборудования», «как ты бы интегрировал решение в существующую SCADA», «что делать, когда модель даёт ложный позитив, и инженер тратит смену впустую». Здесь больше про коммуникацию и понимание производственного процесса, чем про математику. Слабый сигнал — кандидат говорит сложно и про градиенты; сильный — переводит модель на язык «уменьшаем ложные срабатывания, экономим N человеко-часов в год».
6. Финал / СБ + оффер (1-2 недели)
Согласование оффера, проверка СБ (особенно для ролей с доступом к промышленным данным или работа в ДО с режимной зоной). Долго, но почти не отсев — корректировки по компенсации и формату.
Особенности по командам
Predictive maintenance и анализ оборудования. Команда работает с телеметрией турбин, компрессоров, насосов, ГПА. Прогноз отказов, оптимизация плановых ремонтов, снижение незапланированных простоев. Стек — Python + Catboost + autoencoders + Spark + Oracle/Greenplum для исторической телеметрии. Главные челленджи: редкие отказы (несбалансированные классы), необходимость интерпретации для инженеров, false-positive cost (ложная остановка установки — большие деньги). Подойдёт кандидатам с инженерным или физическим бэкграундом плюс опытом в табличном ML.
Оптимизация трубопроводов и газотранспортные модели. Команда занимается оптимизацией режимов магистрального газопровода: расход топливного газа, давление по участкам, температурные режимы. Стек — Python + классический ML + OR-методы + симуляции физики процесса. Челлендж — модели должны учитывать физические ограничения и быть проверены отделом метрологии и инженерами. Подойдёт DS с серьёзной математической подготовкой и интересом к operations research.
Геология и upstream-DS. Прогноз дебита скважин, классификация коллекторов, обработка сейсмических данных. Стек — Python + классический ML + специализированные геологические библиотеки (GSLIB, Petrel-интеграции через API) + PyTorch для CV-задач на сейсмических кубах. Челлендж — данные сложные, требуют геологического понимания, часть задач решает узкая R&D-команда с геофизиками. Подойдёт кандидатам с геолого-физическим бэкграундом или серьёзным CV/DL-опытом.
ESG и экологический мониторинг. Команда занимается анализом выбросов и утечек: спутниковые снимки, дроны, наземные датчики. Стек — PyTorch + CV-модели + Spark для агрегации данных + GIS-инструменты. Подойдёт DS с CV-фоном и интересом к геоданным.
Кибербез и SCADA-аномалии. Точечно: детекция аномалий в промышленных протоколах, защита SCADA-систем. Стек — Python + autoencoders + графовые методы + Splunk/SIEM-интеграция. Подойдёт кандидатам с background в security или промышленной автоматизации.
Что Газпром ценит в DS
Промышленный контекст. Опыт в нефтегазе, машиностроении, энергетике или другом «реальном секторе» сильно ускоряет процесс. Кандидаты из чистого e-com или fintech рассматриваются, но с пониманием, что им нужно доучивать предметную область.
Production-опыт. Не Kaggle-experience, а модель в проде с количественным эффектом. «Снизил процент незапланированных простоев турбин на 12%» — сильнее любой медали.
Интерпретируемость. В Газпроме модели согласуются с инженерами и проверяются на физическую адекватность. Кандидат, который рассказывает только про accuracy без интерпретации, теряет балл.
Weak vs strong на System Design. Слабый ответ: «возьмём LSTM для прогноза отказов компрессора, обучим на 5 годах телеметрии». Сильный ответ: «начну с baseline: rolling statistics + Isolation Forest на 30 ключевых датчиках — это уже даст инженерам полезный сигнал и интерпретируемо. Параллельно — Catboost с лагами и физическими фичами (давление/температура отклонения от номинала). LSTM/autoencoder — следующий шаг, и только если smaller models дойдут до потолка по recall. На каждом шаге метрика — не AUC, а число корректно пойманных отказов за X недель и доля ложных тревог в смену, потому что false-positive — деньги».
Готовность к корпоративной среде. Газпром — большая корпорация с регламентами, согласованиями, СБ-проверками. Кандидат, который на собесе ругает «бюрократию», получит -1. Лучше — «понимаю специфику ВИНК и готов работать с регламентами».
Self-management и проектная зрелость. Циклы длинные, проекты идут месяцами. DS, который теряется без ежедневной обратной связи продакта, рассматривается слабее.
Как готовиться: план
За 6-10 недель до планируемого собеса:
- Неделя 1-2 — Табличный ML и time-series для промышленных данных. Catboost/LightGBM (регуляризация, ordered boosting, работа с пропусками), валидация для рядов (rolling-origin), Prophet, ARIMA, методы детекции аномалий (Isolation Forest, autoencoders, change-point). Прорешай 1-2 кейса с публичными промышленными данными (NASA turbofan, SECOM). Параллельно — на Карьернике обнови базу по SQL, Python и ML: 1500+ задач, по 15-20 минут в день, чтобы за месяц не путаться в простых вопросах вроде «как ловить data leakage в time-series».
- Неделя 3 — Промышленный контекст. Прочитай статьи Газпром нефти, Татнефти, СИБУРа про DS-проекты. Запомни понятия: ГПА, компрессорная станция, дебит, ПКР (полнопрофильный капитальный ремонт), SCADA, OPC-UA, MES, PI System.
- Неделя 4 — Python + SQL live coding. 20-30 SQL-задач на оконки и JOIN, 30 простых задач на pandas (groupby, merge, rolling, time-windows).
- Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: predictive maintenance турбин, оптимизация режимов трубопровода, прогноз дебита, ESG-мониторинг через спутники. Структура — бизнес → метрика → данные → модель → A/B (или валидация) → внедрение. ML system design.
- Неделя 6 — Производство и интерпретация. Прочитай 2-3 публичных доклада про внедрение ML в промышленности: ROI, проблемы внедрения, отношения с инженерами. Натренируйся объяснять модель «языком инженера», без матана.
- Неделя 7-10 — Тестовое + behavioral. Если есть тестовое, сделай его очень аккуратно с документацией. Mock-интервью, 5-7 STAR-историй: конфликт с инженером, факап в проде, длинный проект с СБ-согласованием.
Частые ошибки
Не понимают, что false-positive стоит денег. Кандидат на System Design проектирует модель «с recall 95%», не упоминая, что доля ложных тревог 30% — это значит инженерные смены тратят впустую время. В промышленности это сразу красный флаг.
Хайпуют сложными моделями. Кандидат предлагает огромную нейронку для прогноза дебита 100 скважин. Не учитывает, что инженерные подразделения должны валидировать модель и предпочитают интерпретируемые подходы.
Не разбираются в SCADA / OPC-UA. «Я DS, я в SCADA не лезу». Нерабочая позиция — реальные DS-проекты в Газпроме идут через MES/SCADA-данные, без базового понимания не пройти продуктовый этап.
Игнорируют физику процесса. Модель, которая нарушает физические законы, инженеры не подпишут. Если в ответе кандидата нет ни слова про физическую интерпретацию — балл проседает.
Не задают вопросы про данные. На кейсе сразу — модель, а не «какая частота телеметрии, какие пропуски, как мы храним SCADA-историю, какие данные через метрологию проходят». Это первый фильтр.
Связанные темы
- Собеседование на Data Scientist
- Time series на собесе
- Feature engineering
- Собеседование на Data Scientist в Газпром нефть
- ML system design
FAQ
Удалёнка в Газпроме для DS?
Преимущественно офис в Москве (Газпром-Сити в Санкт-Петербурге для центрального аппарата) или в регионах присутствия ДО. Полная удалёнка возможна редко, обычно гибрид. Для ролей с доступом к промышленным данным — чаще офис.
Зарплатные вилки 2026?
Зависит от ДО. Middle DS: 220-360k. Senior: 360-580k. Lead/Staff — выше, особенно в стратегических ДО. Соцпакет солидный, годовая премия в формате группы Газпром.
Нужен ли английский?
Базовый — для документации и статей. Свободного говорящего обычно не требуется, команды русскоязычные. Для R&D с зарубежной литературой английский плюс.
Сколько этапов?
4-6 этапов, 5-8 недель из-за корпоративных согласований и проверок СБ. Если процесс затягивается до 2 месяцев — нормально для крупной корпорации.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по ДО и направлениям.