Собеседование на Data Scientist в Лукойл

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Лукойл — особенный работодатель для DS

Лукойл — крупнейшая частная нефтегазовая компания России: тысячи скважин в Западной Сибири и Поволжье, шельфовые проекты на Каспии, нефтеперерабатывающие заводы в России и Европе (статус активов меняется в зависимости от санкционного периметра — уточняй у рекрутера), розничная сеть АЗС (одна из крупнейших в РФ), петрохимия. Для Data Scientist это работа в большой ВИНК с относительно живой корпоративной культурой и заметным digital-блоком. Задачи — от классической нефтянки до розничной аналитики АЗС и оптимизации цепочек переработки.

Главные ML-домены: прогноз дебита и анализ работы скважин, классификация коллекторов и интерпретация каротажей, оптимизация ГРП и других технологических операций, predictive maintenance УЭЦН и наземного оборудования, оптимизация режимов нефтеперерабатывающих установок (НПЗ Лукойла в Перми, Кстове, Волгограде и других), розничная аналитика АЗС (трафик, средний чек, программа лояльности Лукойл Клуб), HR-аналитика, ESG и геомониторинг, иногда — корпоративные финансы и closeout-моделирование. NLP — точечно, CV — заметная роль (сейсмика, спутники, контроль на установках).

Стек: Python + Catboost + LightGBM + scikit-learn + Prophet/statsmodels; PyTorch для CV-задач (сейсмика, спутниковые снимки, фото оборудования); реляционные СУБД (Oracle, PostgreSQL) рядом с современным DWH; Spark и Hadoop поверх SCADA и MES-данных; MLflow и собственные инструменты. Архитектура — гибрид: классический энтерпрайз-DWH плюс активная модернизация ML-сегментов через корпоративные digital-инициативы.

Актуальные вакансии — на hh.ru и сайте Лукойла.

Информация основана на публичных источниках и опыте кандидатов. Команды Лукойла и его ДО используют разные процессы — формат, этапы и компенсация зависят от ДО и грейда, уточняйте у рекрутера.

Этапы собеседования

Полный цикл — 4-7 недель, 4-6 этапов. Процесс корпоративный, но проектные команды стараются ускорять решения: HR, тестовое (часто), техническое интервью, профильное интервью с заказчиком, финал, СБ-проверка для ролей с допусками. Согласования зависят от ДО.

1. HR-скрининг (30-45 минут)

Рекрутер уточняет: production-опыт ML (от 2 лет, желательно с табличными или time-series данными), знание промышленного контекста (плюс, не обязательно), готовность работать в корпоративной среде с регламентами, мотивацию идти именно в Лукойл, ожидания по компенсации и формату работы. Готовь питч на 90 секунд про самый зрелый production-кейс.

2. Тестовое задание (5-7 дней)

Часто для middle+: реальный кейс — прогноз показателя скважины, классификация типа отказа по телеметрии, расчёт ROI оптимизации режима НПЗ. Дают набор данных, метрику и формат отчёта. Оцениваются качество модели, ясность отчёта, аккуратность валидации, документирование. Защита тестового — на следующем этапе.

3. Техническое интервью / ML-теория (60-90 минут)

Базовая секция со старшим DS из направления. Темы: градиентный бустинг (Catboost/LightGBM — регуляризация, обработка пропусков, ordered boosting), классические методы (линейная и логистическая регрессия с интерпретацией коэффициентов), feature engineering для промышленных и геологических данных, time-series (Prophet, ARIMA, sequential split, anti-leakage), методы детекции аномалий (Isolation Forest, autoencoders, change-point), базы CV для R&D-команд. Будут специфические вопросы по нефтянке.

Подготовка: классическая ML, feature engineering, time series.

4. Python + SQL live coding (60 минут)

Задачи прагматичные, без LeetCode Hard: 1-2 на Python (pandas, базовые алгоритмы), 1-2 на SQL (агрегаты, JOIN, оконные функции). Часто живой кейс: «дам тебе фрейм с показателями работы НПЗ, посчитай rolling-агрегаты и найди интервалы с аномальным выходом продуктов». Готовиться: 20-30 SQL Medium-задач + 30 простых на pandas.

Подготовка: live coding.

5. Профильное интервью с заказчиком (60-90 минут)

Самая характерная секция. Заказчик — геолог, главный технолог, начальник управления, руководитель направления — задаёт продуктовые вопросы: «как ты обоснуешь, что эта модель безопасна для производства», «как ты бы внедрил рекомендации в существующий регламент работы установки», «как объяснить модель главному инженеру». Здесь больше про коммуникацию и понимание производственного процесса.

6. Финал / СБ + оффер (1-3 недели)

Согласование оффера, проверка СБ. Корректировки по компенсации и формату.

Особенности по командам

Upstream / цифровое месторождение. Команда занимается прогнозом дебита, классификацией коллекторов, оптимизацией ГРП. Стек — Python + Catboost + PyTorch (CV для сейсмики и каротажей) + специализированные геологические библиотеки + Spark. Челлендж — данные сложные, нужно геологическое понимание, проекты длинные. Подойдёт кандидатам с физико-математическим или геолого-инженерным бэкграундом плюс серьёзным ML.

Predictive maintenance. Команда работает с телеметрией УЭЦН, насосов, компрессоров на месторождениях и заводах. Прогноз отказов, оптимизация замен. Стек — Python + Catboost + autoencoders + Spark + Oracle. Челленджи — редкие отказы, false-positive cost, интерпретация для инженеров. Подойдёт DS с инженерным мышлением и опытом в табличном ML.

Downstream / переработка. Команда по оптимизации режимов НПЗ Лукойла: выходы продуктов, расход реагентов, энергопотребление, прогноз качества. Стек — Python + классический ML + APC-интеграции + OR-методы. Подойдёт DS с математической подготовкой и интересом к процессному инжинирингу.

Розничная аналитика АЗС. Команда занимается аналитикой сети АЗС (одна из крупнейших в РФ): трафик, средний чек, оптимизация ассортимента, программа лояльности Лукойл Клуб, прогноз спроса, динамическое ценообразование. Стек — Catboost + Prophet + ClickHouse + Greenplum. Челлендж — большая распределённая сеть, миллионы транзакций, конкурентная среда. Подойдёт DS с опытом в ритейле или потребительской аналитике.

Корпоративные финансы и закупки. Точечно: classification-задачи в закупках, аналитика контрагентов, оптимизация tax/treasury. Стек — Catboost + классические методы + табличные данные. Подойдёт DS с background в B2B-аналитике или финансах.

Что Лукойл ценит в DS

Промышленный или геологический контекст. Опыт в нефтегазе, металлургии, энергетике, машиностроении — большой плюс. Кандидаты из чистого e-com или fintech рассматриваются, но с пониманием, что им нужно доучивать предметную область.

Production-опыт. История про модель в проде с количественным эффектом на бизнес-метрику. «Сделал классификатор на Kaggle» — не история. «Снизил процент незапланированных отказов УЭЦН на 13% за 6 месяцев пилота на 150 скважинах» — это история.

Интерпретируемость. В Лукойле модели согласуются с инженерами и геофизиками, проверяются на физическую адекватность. Кандидат, который рассказывает только про accuracy без интерпретации, теряет балл.

Weak vs strong на System Design. Слабый ответ: «возьмём LSTM для прогноза отказов УЭЦН». Сильный ответ: «начну с baseline: rolling statistics + Isolation Forest на 30 ключевых датчиках — это уже даст инженерам полезный сигнал. Параллельно — Catboost с лагами и физическими фичами. LSTM/autoencoder — следующий шаг, и только если smaller models упрутся в потолок recall. На каждом шаге метрика — не AUC, а число корректно пойманных отказов за квартал и доля ложных срабатываний в смену, потому что ложный отказ — это поездка ремонтной бригады в поле и реальные деньги».

Готовность к корпоративной среде. Лукойл — большая корпорация с регламентами и согласованиями, но проектные команды довольно быстрые. Кандидат, который ругает «бюрократию» вообще, рискует получить -1.

Self-management. Циклы проектов длинные. DS, который не умеет вести проект 6+ месяцев без ежедневной обратной связи, рассматривается слабее.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

За 5-8 недель до планируемого собеса:

  1. Неделя 1-2 — Табличный ML и time-series. Catboost/LightGBM (регуляризация, ordered boosting, работа с пропусками), валидация для рядов (rolling-origin), методы детекции аномалий. Прорешай 1-2 кейса с публичными промышленными данными (NASA turbofan, SECOM, kaggle well-log). Параллельно — на Карьернике обнови базу по SQL, Python и ML: 1500+ задач, по 15-20 минут в день, чтобы за месяц освежить алгоритмы и метрики и не путаться на простых вопросах вроде «как обнаружить data leakage в time-series».
  2. Неделя 3 — Нефтегаз-контекст. Прочитай статьи Лукойла, Газпром нефти, Татнефти и РН-ЦИР про DS-проекты в нефтянке. Запомни понятия: дебит, обводнённость, УЭЦН, ГРП, ОПЗ, ОРД, каротаж, downstream/upstream, фондовая база.
  3. Неделя 4 — Python + SQL live coding. 20-30 SQL Medium-задач, 30 простых на pandas (groupby, merge, rolling, time-windows).
  4. Неделя 5 — System Design кейсы. Прорешай 5-6 кейсов: прогноз дебита, классификация коллектора, predictive maintenance УЭЦН, оптимизация режимов установки переработки, аналитика АЗС с динамическим ценообразованием. Структура — бизнес → метрика → данные → модель → валидация → внедрение. ML system design.
  5. Неделя 6 — Производство и интерпретация. Натренируйся объяснять модель «языком инженера» и «языком геолога». Прочитай 2-3 публичных доклада по внедрению ML в нефтегазе.
  6. Неделя 7-8 — Тестовое + behavioral. Если есть тестовое, сделай его аккуратно с документацией. Mock-интервью, 5-7 STAR-историй: конфликт с инженером, факап в проде, история про экономический эффект, кейс с быстрым пилотом.

Частые ошибки

Не понимают, что false-positive стоит денег. Кандидат на System Design проектирует модель с recall 95% и долей ложных тревог 30%, не упоминая, что это значит поездки ремонтных бригад впустую. Красный флаг.

Хайпуют deep learning на табличке. Кандидат предлагает огромную нейронку для прогноза дебита. Не учитывает, что Catboost на правильных фичах обычно выигрывает по cost/quality.

Не разбираются в нефтегаз-терминологии. «Что такое ОРД или ГРП?» — кандидат теряется. На профильном интервью это сразу проблема.

Игнорируют физику процесса. Модель, нарушающая физические законы, инженер не подпишет. Если в ответе нет ни слова про физическую интерпретацию — балл проседает.

Не задают вопросы про данные. На кейсе сразу — модель, а не «какая частота телеметрии, какие пропуски, как мы храним SCADA-историю, какие данные через метрологию проходят». Это первый фильтр.

Связанные темы

FAQ

Удалёнка в Лукойле для DS?

Преимущественно офис в Москве (центральный офис) или Перми, Когалыме, Волгограде (региональные центры). Полная удалёнка возможна редко, обычно гибрид. Для ролей с допусками — чаще офис.

Зарплатные вилки 2026?

Middle DS: 220-360k. Senior: 360-560k. Lead/Staff — выше, особенно в R&D и upstream-направлениях. Соцпакет солидный, годовая премия в формате группы Лукойл.

Нужен ли английский?

Базовый — для документации и зарубежных статей. Свободного говорящего обычно не требуется, команды русскоязычные. Для R&D с зарубежной литературой — плюс.

Сколько этапов?

4-6 этапов, 4-7 недель из-за корпоративных согласований. Чуть быстрее, чем в Газпроме, но медленнее, чем в IT-компаниях.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по ДО и направлениям.