Собеседование на Data Scientist в Сбер AI
Содержание:
Почему Сбер AI — особенный работодатель для DS
Сбер AI — крупное AI/ML-направление Сбера. Включает GigaChat (LLM-ассистент), Кандинский (генерация изображений), голосового ассистента Salute, рекомендательные системы экосистемы. Объединяет фундаментальные исследования и applied ML для продуктов банка и экосистемы.
Особенность: смесь академического R&D и производственного ML. DS в Сбер AI часто публикуется на конференциях (NeurIPS, ICML, ACL) и одновременно деплоит модели в production. Это даёт уникальный опыт — мало где в России можно сочетать фундаментальное исследование с реальным impact. Актуальные вакансии — на странице карьеры Сбера и через Sber AI.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30-45 минут)
Опыт, мотивация. Особенности Сбер AI:
- Опыт с deep learning, LLM, computer vision или классическим ML
- Публикации / open-source — большой плюс
- В какое направление интересно (NLP / CV / classical ML / fundamental research)
2. Live-coding (45-60 минут)
Алгоритмы и Python. Уровень — сильный (ближе к big-tech). Темы: arrays, DP, graphs, иногда задачи по NLP/ML библиотекам.
3. ML-теория (60-90 минут)
Главный этап. Темы зависят от направления:
Для NLP / LLM команд:
- Transformer-архитектура, attention механизм
- Fine-tuning vs prompting, RLHF, LoRA
- Метрики качества генерации (BLEU, ROUGE, perplexity, human eval)
- Hallucinations и как с ними бороться
Для CV команд:
- CNN-архитектуры (ResNet, EfficientNet, Vision Transformers)
- Object detection (YOLO, Faster R-CNN)
- Diffusion models, GAN
Для classical ML:
- Bias-variance, регуляризация, ансамбли
- Gradient boosting детально
- Метрики и валидация
Подготовка: статистика, DS hub.
4. ML system design (60-90 минут)
«Спроектируй RAG для саппорта», «модель рекомендаций для СберПремиум», «детекция фрода голосового бота». Структура: данные → модель → метрика offline → A/B-дизайн → MLOps → масштабирование.
5. Поведенческое и фит с командой (45 минут)
STAR-вопросы плюс обсуждение того, как ты ведёшь длинные R&D проекты.
6. Финал с руководителем направления
Стратегический разговор: видение карьеры, fit.
Что Сбер AI ценит в DS
- Фундаментальная база. ML-теория на университетском уровне (linear algebra, probability, optimization)
- Deep learning. Для большинства команд DL — must-have. Знание PyTorch, опыт с large-scale обучением
- Исследовательский опыт. Публикации, open-source, проекты с глубоким анализом
- Продакшен-mindset. R&D не ради R&D — модель должна работать в продукте
- Готовность к долгим циклам. В Сбере проекты могут идти 6-12 месяцев
Типичные задачи и кейсы
- «Спроектируй pipeline для дообучения GigaChat на новом домене»
- «Объясни, как работает attention в Transformer и почему он эффективнее RNN»
- «У нас 100M картинок без разметки. Как использовать?» (фокус — self-supervised learning)
- «Качество диалогов с ассистентом упало. Как разобраться?»
- «Как поймёшь, что LLM hallucinate?»
Как готовиться: план
- Deep learning теория. Книга Goodfellow «Deep Learning» как фундамент. Курсы fast.ai, Stanford CS231n / CS224n.
- LLM / Transformer. Для NLP команд — must-know. Статья «Attention is All You Need», fine-tuning, RLHF.
- Computer Vision (если CV-команда). ResNet, ViT, segmentation, diffusion.
- ML system design. Прорешать 10+ кейсов end-to-end. Книга «Designing Machine Learning Systems» Чип Хюйен.
- Классический ML. Не игнорируй — gradient boosting, regression остаются актуальными.
- STAR-истории. Особенно про долгие проекты и публикации.
Частые ошибки
- Игнорировать классический ML. Не все задачи решаются нейросетями. Иногда XGBoost оптимален.
- Зубрить архитектуры без понимания. Знать названия (BERT, GPT, ViT) — мало. Нужно объяснить trade-off-ы.
- Не учитывать масштаб. Обучение LLM с нуля и fine-tuning — разные вещи. На собесе ждут понимания компонентов.
- Слабая математика. Linear algebra, calculus, optimization — основа. Без неё ML-теория не понимается, а зазубривается.
- Не уметь объяснить просто. DS, который не может рассказать продакту, как работает модель — слабый кандидат.
Связанные темы
- Собеседование на Data Scientist
- Собеседование на DS в Яндексе
- Собеседование на DS в Т-Банке
- Что такое cross-validation
- Time series decomposition
FAQ
Сколько этапов в собеседовании на DS в Сбер AI?
Обычно 5-7: рекрутер → live-coding → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.
Нужны ли публикации?
Желательны для research-команд. Для applied DS — не обязательны, но open-source / pet-projects увеличивают шансы.
Спрашивают ли LLM-вопросы?
В NLP-командах — да, глубоко. В CV-командах — реже. В classical ML — редко. Уточняй на скрининге.
Чем DS в Сбер AI отличается от Яндекс?
В Сбер AI больше R&D и публикаций, в Яндексе — больше production-фокуса. Yandex Research — ближе к Сбер AI по культуре, чем applied-команды Яндекса.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.