Собеседование на Data Scientist в Сбер AI
Содержание:
Почему Сбер AI — особенный работодатель
Сбер — крупнейший работодатель для DS в России: банковский ML (скоринг, антифрод, маркетинг), Sber AI как отдельный центр (GigaChat, Kandinsky, ruDALL-E, RecSys), Сбермаркет, ДомКлик, Salute Speech. Внутри есть и applied ML, и research. По объёму открытых вакансий конкурирует с Яндексом.
Особенность — корпоративная регулярность: процесс найма прозрачный, чек-листы, грейды (от DS-Junior до Lead). Параллельно — модели на боевом банковском масштабе (десятки миллионов клиентов, миллиарды транзакций). Актуальные вакансии — на карьерной странице Сбера.
Информация основана на публичных источниках и опыте кандидатов. Внутри Сбера много разных команд — процесс может отличаться.
Этапы собеседования
1. Скрининг с HR (30-45 минут)
Стандартное знакомство:
- Опыт, текущая позиция, ожидания по грейду и компенсации
- Готовность к корп-процессам (jira, конф-звонки, документация)
- Знаком ли с продуктами Сбера
Питч 90 секунд: продукт, задача, метрика.
2. Алгоритмы / coding (60-90 минут)
LeetCode Easy-Medium плюс задачи на pandas/numpy. Лояльнее, чем в Яндексе: глобальные алгоритмы реже, чем тонкости работы с данными.
Иногда — задача на чистый SQL: оконные функции, JOIN, агрегация. Если идёшь на data-роль внутри Sber AI — SQL обязателен.
Подготовка: Python live-coding, SQL-тренажёр.
3. ML-теория (60-90 минут)
Деревья, бустинг (CatBoost — Яндекс, но в Сбере он тоже первый выбор), линейные модели. Классическая программа:
- Bias-variance, регуляризация
- Метрики: для скоринга — Gini, KS, ROC-AUC, PR-AUC. Для антифрода — precision @ recall (с большим class imbalance)
- Кросс-валидация, time-based split (важно для финансовых данных)
- Imbalanced classes: SMOTE, class weights, threshold tuning
Подготовка: ROC-AUC vs PR-AUC, классификация на собесе DS.
4. Доменные кейсы (45-60 минут)
Здесь Сбер отличается от Яндекса: спрашивают про конкретные банковские задачи.
Типичные кейсы:
- «Построй модель кредитного скоринга. Какие фичи возьмёшь, как избежать leak»
- «Антифрод по транзакциям: live-инференс, какая latency, какая модель»
- «Как ML может помочь в обнаружении churn в банке»
В Sber AI / GigaChat — другой акцент: LLM, retrieval, evaluation:
- Как собирал бы датасет для fine-tuning
- Как оценивать ответы LLM
- Что такое RAG, как делал
Подготовка: ML-кейсы на собесе DS, ML system design.
5. Поведенческое (45 минут)
STAR. У Сбера — фокус на team work и compliance:
- Как работал с регуляторными ограничениями (банковская тайна, ПД)
- Конфликт с продакт-менеджером / руководителем — как разрулил
- Большой проект, который растягивался дольше плана
6. Финал с тимлидом / руководителем
Стратегия, фит:
- Куда движется направление
- Карьерные треки внутри Сбера (есть формальные грейды)
- ML-инфраструктура: MLflow, in-house платформы
Особенности по направлениям
| Направление | Что важно |
|---|---|
| Кредитный скоринг | Логрег + GBM, Gini/KS, объяснимость, регулятор |
| Антифрод | Real-time inference, граф-аналитика, anomaly detection |
| Маркетинг (CRM) | Uplift modeling, RecSys для предложений, churn |
| Sber AI / GigaChat | LLM fine-tuning, prompt engineering, RLHF, evals |
| Kandinsky | Image generation, diffusion models, evals |
| Salute Speech | ASR / TTS, аудио-данные, real-time |
| ДомКлик / Сбермаркет | RecSys, search ranking, e-com метрики |
Что Сбер ценит в DS
- Объяснимость. В банке моделей без интерпретации не пропустят: SHAP, feature importance, монотонность фич — must
- Доменное понимание. Не «обучил классификатор», а «понимаю, что значат фичи и как они работают для банковской бизнес-логики»
- Готовность к процессам. Согласования, документация, ИБ-проверки — часть работы
- Compliance-mindset. Знание GDPR/152-ФЗ, обращения с банковской тайной, отделения dev и prod
- Стабильность. Сбер не любит «звёзд» без процесса. Регулярная дисциплина делает больше, чем сольный гений
Как готовиться: план
- Алгоритмы Easy-Medium. Меньше акцента на Hard, больше на pandas и SQL.
- ML-классика. Логрег, деревья, бустинг. bias-variance, регуляризация.
- Финансовые метрики. Gini, KS, lift, PR-AUC для imbalanced.
- Доменные кейсы. Скоринг, антифрод, churn, RecSys.
- LLM-стек (для Sber AI). Fine-tuning, RLHF, evaluation. Reasoning у LLM.
- STAR-истории. Compliance-ситуации, командная работа, регуляторика.
Частые ошибки
- Сильный ML без compliance. «Я использую любые данные» — провал в банковской команде
- Игнор объяснимости. ROC-AUC 0.92 без SHAP — для скоринга мало
- Только теория, без банковского контекста. Идёшь в антифрод — изучи паттерны mule-аккаунтов, smurfing, layering
- Слабый SQL. Внутри Сбера DS пишет SQL чаще, чем кажется
- Не учесть масштаб данных. Модель должна работать на сотнях миллионов записей, не на 10k
Связанные темы
- Собеседование на Data Scientist
- Собеседование на PM в Т-Банке
- ML system design на собесе DS
- ROC-AUC vs PR-AUC на собесе DS
- Собеседование Data Scientist: обзор
FAQ
Сколько раундов в Сбере для DS?
Обычно 4-6: HR → coding → ML-теория → кейсы → поведенческое → финал. Срок 3-6 недель.
Чем Sber AI отличается от обычного DS в Сбере?
Sber AI — research-центр (GigaChat, Kandinsky). Там больше LLM, NLP, CV, генеративных моделей. В banking-командах — applied ML на табличных данных.
Берут ли junior DS?
Да, есть программы для джунов и стажёров. Часто через стажировку в Sber AI Lab.
Нужно ли знать банковский домен заранее?
Желательно для скоринга/антифрода. Можно подучить за 2-3 недели до собеса.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.