Собеседование на Data Scientist в Сбер AI

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Сбер AI — особенный работодатель для DS

Сбер AI — крупное AI/ML-направление Сбера. Включает GigaChat (LLM-ассистент), Кандинский (генерация изображений), голосового ассистента Salute, рекомендательные системы экосистемы. Объединяет фундаментальные исследования и applied ML для продуктов банка и экосистемы.

Особенность: смесь академического R&D и производственного ML. DS в Сбер AI часто публикуется на конференциях (NeurIPS, ICML, ACL) и одновременно деплоит модели в production. Это даёт уникальный опыт — мало где в России можно сочетать фундаментальное исследование с реальным impact. Актуальные вакансии — на странице карьеры Сбера и через Sber AI.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30-45 минут)

Опыт, мотивация. Особенности Сбер AI:

  • Опыт с deep learning, LLM, computer vision или классическим ML
  • Публикации / open-source — большой плюс
  • В какое направление интересно (NLP / CV / classical ML / fundamental research)

2. Live-coding (45-60 минут)

Алгоритмы и Python. Уровень — сильный (ближе к big-tech). Темы: arrays, DP, graphs, иногда задачи по NLP/ML библиотекам.

3. ML-теория (60-90 минут)

Главный этап. Темы зависят от направления:

Для NLP / LLM команд:

  • Transformer-архитектура, attention механизм
  • Fine-tuning vs prompting, RLHF, LoRA
  • Метрики качества генерации (BLEU, ROUGE, perplexity, human eval)
  • Hallucinations и как с ними бороться

Для CV команд:

  • CNN-архитектуры (ResNet, EfficientNet, Vision Transformers)
  • Object detection (YOLO, Faster R-CNN)
  • Diffusion models, GAN

Для classical ML:

  • Bias-variance, регуляризация, ансамбли
  • Gradient boosting детально
  • Метрики и валидация

Подготовка: статистика, DS hub.

4. ML system design (60-90 минут)

«Спроектируй RAG для саппорта», «модель рекомендаций для СберПремиум», «детекция фрода голосового бота». Структура: данные → модель → метрика offline → A/B-дизайн → MLOps → масштабирование.

5. Поведенческое и фит с командой (45 минут)

STAR-вопросы плюс обсуждение того, как ты ведёшь длинные R&D проекты.

6. Финал с руководителем направления

Стратегический разговор: видение карьеры, fit.

Что Сбер AI ценит в DS

  • Фундаментальная база. ML-теория на университетском уровне (linear algebra, probability, optimization)
  • Deep learning. Для большинства команд DL — must-have. Знание PyTorch, опыт с large-scale обучением
  • Исследовательский опыт. Публикации, open-source, проекты с глубоким анализом
  • Продакшен-mindset. R&D не ради R&D — модель должна работать в продукте
  • Готовность к долгим циклам. В Сбере проекты могут идти 6-12 месяцев

Типичные задачи и кейсы

  • «Спроектируй pipeline для дообучения GigaChat на новом домене»
  • «Объясни, как работает attention в Transformer и почему он эффективнее RNN»
  • «У нас 100M картинок без разметки. Как использовать?» (фокус — self-supervised learning)
  • «Качество диалогов с ассистентом упало. Как разобраться?»
  • «Как поймёшь, что LLM hallucinate?»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Deep learning теория. Книга Goodfellow «Deep Learning» как фундамент. Курсы fast.ai, Stanford CS231n / CS224n.
  2. LLM / Transformer. Для NLP команд — must-know. Статья «Attention is All You Need», fine-tuning, RLHF.
  3. Computer Vision (если CV-команда). ResNet, ViT, segmentation, diffusion.
  4. ML system design. Прорешать 10+ кейсов end-to-end. Книга «Designing Machine Learning Systems» Чип Хюйен.
  5. Классический ML. Не игнорируй — gradient boosting, regression остаются актуальными.
  6. STAR-истории. Особенно про долгие проекты и публикации.

Частые ошибки

  • Игнорировать классический ML. Не все задачи решаются нейросетями. Иногда XGBoost оптимален.
  • Зубрить архитектуры без понимания. Знать названия (BERT, GPT, ViT) — мало. Нужно объяснить trade-off-ы.
  • Не учитывать масштаб. Обучение LLM с нуля и fine-tuning — разные вещи. На собесе ждут понимания компонентов.
  • Слабая математика. Linear algebra, calculus, optimization — основа. Без неё ML-теория не понимается, а зазубривается.
  • Не уметь объяснить просто. DS, который не может рассказать продакту, как работает модель — слабый кандидат.

Связанные темы

FAQ

Сколько этапов в собеседовании на DS в Сбер AI?

Обычно 5-7: рекрутер → live-coding → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.

Нужны ли публикации?

Желательны для research-команд. Для applied DS — не обязательны, но open-source / pet-projects увеличивают шансы.

Спрашивают ли LLM-вопросы?

В NLP-командах — да, глубоко. В CV-командах — реже. В classical ML — редко. Уточняй на скрининге.

Чем DS в Сбер AI отличается от Яндекс?

В Сбер AI больше R&D и публикаций, в Яндексе — больше production-фокуса. Yandex Research — ближе к Сбер AI по культуре, чем applied-команды Яндекса.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.