Собеседование на Data Scientist в Открытии
Содержание:
Почему Открытие — особенный работодатель для DS
Банк Открытие — крупный российский универсальный банк с фокусом на розничное и корпоративное обслуживание, исторически входивший в группу ВТБ. Продуктовый портфель — широкий: ипотека, потребительские кредиты, кредитные карты, депозиты, инвестиционные продукты, корпоративное обслуживание. Для Data Scientist это среда классического банковского ML с упором на регуляторно-строгие модели и аккуратную работу с risk-моделированием. По сравнению с Тинькофф или Альфой Открытие меньше про fintech-эксперименты и больше про надёжный banking-DS с серьёзной risk-функцией.
ML-домены: кредитный скоринг (PD, EAD, LGD по IRB / IFRS-9), антифрод в транзакциях и заявках, прогноз churn по продуктам (карты, депозиты, ипотека), customer LTV и cross-sell, NLP на текстах обращений и чате, AML/KYC-аналитика (отмывание, подозрительные паттерны), оптимизация маркетинговых кампаний, recommendation финансовых продуктов. Стек: Python, scikit-learn, CatBoost / XGBoost, R для regulatory-моделей, PostgreSQL, Greenplum, Hadoop / Spark для тяжёлых ETL, Airflow, MLflow, Oracle для legacy core-banking.
Актуальные вакансии — на hh.ru и сайте Открытия.
Информация основана на публичных источниках и опыте кандидатов. Команды Открытия используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
Цикл 4–6 недель и включает 5–6 этапов. Процесс корпоративный, ближе к большим традиционным банкам (Сбер, ВТБ), чем к быстрым финтехам.
1. HR-скрининг (30–45 минут)
Рекрутер проверяет: production-опыт DS (1.5+ года), причины смены работы, ожидания, готовность работать в корпоративной структуре. Опыт в банковском скоринге, антифроде или регуляторно-чувствительных доменах — большой плюс.
2. Тестовое задание (3–7 дней)
Часто даётся: датасет с историей кредитов или транзакций, нужно построить скоринг или модель прогноза fraud. Сильные кандидаты делают chronological split, обсуждают interpretability и обосновывают выбор метрики.
3. ML / DS-теория (60–90 минут)
С senior DS из команды. Темы: классика (логистическая регрессия — особенно важна в банковском скоринге, GLM, бустинги, regularization, calibration), метрики (Gini, KS, PSI), survival для churn, основы IFRS-9 (PD/EAD/LGD как концепции), причинно-следственный анализ.
Подготовка: Классическая ML на собесе, Метрики модели.
4. Python + SQL live-coding (60–90 минут)
Live: 1 алгоритмическая задача (LeetCode Medium-Easy), 1–2 на pandas, 1–2 на SQL по банковским данным. SQL в Открытии часто на Greenplum / Oracle: оконные функции, complex JOIN, ratio-метрики.
Подготовка: Live-coding, SQL-собес.
5. ML system design + бизнес-кейс (60–90 минут)
Кейсы: «как ты бы построил скоринг для potreb-кредита», «как обнаружить fraud в транзакциях кредитных карт», «как удержать клиента от ухода вкладов». Сильные ответы — где обсуждаются интерпретируемость, регуляторное соответствие, стабильность во времени и план мониторинга.
Подготовка: ML system design.
6. Поведенческое + risk-функция (30–45 минут)
С тимлидом и менеджером. STAR-формат. Дополнительно — проверка готовности работать с risk-функцией банка (validation, monitoring, regulatory reporting).
Особенности по командам
Credit Scoring & Risk Models. Главная команда: PD / EAD / LGD-модели по IFRS-9 для основных кредитных продуктов. Тесная связка с risk-функцией и actuarial. Челленджи: интерпретация, стабильность, регуляторное соответствие. Подойдёт DS с background в banking-scoring.
Antifraud & Transaction Monitoring. Детекция fraud в транзакциях по картам, fraud в заявках на кредит, AML-аналитика. Mix классики, графовых подходов (выявление сетей мошенников), NLP. Real-time inference — must для cards-fraud.
Churn & Customer Retention. Прогноз ухода клиента по продуктам, реактивация спящих клиентов депозитов и карт, оптимизация retention-кампаний.
Customer LTV & Cross-Sell. Прогноз LTV, propensity-to-buy для дополнительных продуктов (от карты к ипотеке, от депозита к инвестициям).
Corporate Risk Analytics. Меньше команда, но влиятельная: моделирование рисков для корпоративных клиентов, портфельная аналитика, оценка концентрации.
Marketing & Acquisition. Атрибуция, прогноз ROI кампаний, скоринг лидов на продукты, оптимизация креативов. Тесная связка с маркетинг-командой.
Wealth Management & Investment Analytics. Меньше команда: моделирование инвестиционного поведения клиентов, recommendation финансовых продуктов (паи, ОФЗ, структурные ноты), сегментация состоятельных клиентов, прогноз готовности к инвестпродуктам. Подойдёт DS с background в финтехе или wealth management.
Mortgage Analytics. Уникальная команда вокруг ипотечного направления: скоринг под ипотеку (особенности — длинный горизонт, низкая частота дефолтов), прогноз prepayment-риска, оптимизация цены на разные сегменты. Подойдёт DS, интересующийся мортгидж-моделированием.
Validation & Model Risk Management. Меньше команда, но критически важная — валидация всех моделей перед раскаткой и мониторинг в продакшене. Сюда идут senior DS, готовые работать на «второй линии защиты», аудитор моделей вместо разработчика.
Что Открытие ценит в DS
Глубина в банковском скоринге. Strong: «обучил scorecard на 1.2 млн заявок, валидация по гео и по календарю, calibration через Platt-scaling, monotone constraints на возраст и доход, KS 38 в out-of-time валидации; в A/B на 30% потока за 90 дней approval rate увеличился на 4pp без роста NPL». Цифры обязательны.
Интерпретируемость и regulatory soundness. Black-box без обоснования регулятору — нельзя. SHAP, monotone constraints, PSI-мониторинг — стандарт.
Стабильность во времени. Скоринговая модель живёт годами. Drift, переобучение, fall-back — обязательно.
Готовность к корпоративному процессу. Открытие — большой банк с формальными процессами validation, monitoring, governance. Готовность работать в них — критично.
Опыт работы с регуляторно-чувствительными данными. Понимание требований ЦБ, ФЗ-152, банковской тайны — must.
Кросс-функциональная адекватность. Банковский DS работает на стыке множества команд: risk-functions, продуктовые команды, маркетинг, операционный менеджмент, юристы и аудит. На собесе проверяют умение объяснять модели юристу или менеджеру по риску, согласовывать решения, договариваться по приоритетам. Кандидат с сильным техническим бэкграундом, но слабыми коммуникационными навыками, в большом банке быстро упирается в потолок.
Долгосрочное мышление. Модели в банке живут 1–3 года. Кандидат, мыслящий категориями «обучил → выкатил → забыл», слаб. Strong-кандидат сразу обсуждает план мониторинга, переобучения, контроля смещений распределения признаков и target, плюс fall-back-стратегии на случай резкого изменения макро-среды.
Как готовиться: план
Минимум 6–8 недель. Неделя 1–2: ML-теория (классика, GLM, бустинги, calibration, monotone constraints). Неделя 3: LeetCode + pandas (40 задач). Неделя 4: SQL — оконки, ratio, complex JOINs (Greenplum / Oracle стиль). Неделя 5: банковский скоринг (PD/EAD/LGD, IFRS-9, scorecard development). Неделя 6: A/B + interpretability. Неделя 7: ML system design — отработай 4 кейса (скоринг, antifraud, churn, marketing). Неделя 8: mock-интервью.
Для тренировки реальных вопросов с DS-собесов — открывай Карьерник: 1500+ задач по SQL, Python, A/B-тестам, статистике, продуктовой аналитике и ML по темам и сложности.
Частые ошибки
Первая — black-box модель без интерпретации. Strong-кандидат сразу обсуждает SHAP, monotone constraints, PSI-мониторинг.
Вторая — игнорирование regulatory-стороны. Если ты не различаешь IFRS-9 от IRB и не понимаешь, что такое PD/EAD/LGD, это серьёзный gap.
Третья — слабая стабильность модели. Бустинг с лучшей AUC, но drift через 6 месяцев — это не работает в банке. Готовь план мониторинга.
Четвёртая — попытка применить продуктовые подходы из e-commerce. Банкинг требует другого инструментария и других ограничений.
Пятая — нет цифр в кейсах. На вопрос про самый успешный проект сильный ответ — с конкретным улучшением approval rate, NPL, retention.
Связанные темы
- Собеседование на Data Scientist в Альфа-Банке
- Собеседование на Data Scientist в ВТБ
- Собеседование на ML Engineer в Открытии
- Собеседование на Data Scientist — гайд
FAQ
Сколько этапов в собесе DS в Открытии?
5–6 этапов: HR-скрининг, тестовое задание, ML / DS-теория, Python + SQL live-coding, ML system design + бизнес-кейс, поведенческое + risk-функция. Цикл — 4–6 недель.
Нужен ли опыт в банке?
Желателен, но не обязателен. Сильный опыт в страховании, банковском скоринге смежных компаний или антифроде подходит. Готовность учить IFRS-9, PD/EAD/LGD до собеса — must.
Какой английский нужен?
B1–B2 минимум. Документация и часть инструментов — на английском.
Какой стек чаще встречается?
Python + scikit-learn + CatBoost для retail-задач, R + GLM для regulatory-моделей, Greenplum + Oracle + PostgreSQL для DWH, Hadoop / Spark для тяжёлых ETL, Airflow для оркестрации.
Сколько платят DS в Открытии?
Зависит от грейда. Для middle DS — на уровне крупных банков РФ (Сбер / ВТБ), для senior — выше. Credit Scoring и Antifraud команды обычно платят выше из-за специфики экспертизы и регуляторной ответственности.
Берут ли DS-джунов?
Редко напрямую. Чаще через рост из аналитика рисков или через программу junior-DS внутри risk-функции.
Какие книги/курсы посмотреть до собеса?
Naeem Siddiqi «Credit Risk Scorecards» — must для banking-scoring. По интерпретируемости: Molnar «Interpretable Machine Learning». По IFRS-9 и Basel: обзорные материалы ЦБ и BIS, плюс корпоративные подборки от Big-4 (KPMG / EY / PwC) для понимания методологии validation-функции.
Что важнее для собеса — глубина в banking или общий ML?
В равной степени. Сильный общий ML без banking-контекста не пройдёт ML system design, сильный banking без общего ML провалится в ML / DS-теории. Готовь обе стороны.
Стоит ли переходить из техно-стартапа в традиционный банк?
Зависит от мотивации. Открытие — более медленный, регулятивный мир с глубокими risk-задачами. Если ценишь стабильность процессов и глубокую validation-функцию — подойдёт. Если хочется быстрых продуктовых итераций — Тинькофф / Альфа ближе.