Собеседование на Data Engineer в Сбере
Содержание:
Почему Сбер — особенный работодатель для DE
Сбер — крупнейший data-работодатель в РФ: десятки тысяч таблиц, сотни ETL-команд, корпоративный Hadoop-кластер (Cloudera или in-house), Hive / Impala для SQL над HDFS, Greenplum для оперативной аналитики, Spark для тяжёлых трансформаций. В Sber AI отдельно — современный лейкхаус-стек.
Особенность — масштабы (миллиарды транзакций в день) + регуляторика (банковская тайна, ПД, аудит). DE работает в строгих процессах: code review, ИБ-проверки, документация. Это компромисс между большой инфраструктурой и медленным циклом. Актуальные вакансии — на карьерной странице Сбера.
Информация основана на публичных источниках и опыте кандидатов. Сбер большой — процесс может отличаться по командам.
Этапы собеседования
1. Скрининг с HR (30-45 минут)
Знакомство:
- Стек DE, опыт, ожидания
- Готовность к корп-процессам, документации
- Знаком ли с банковским доменом
Питч 90 секунд.
2. SQL deep dive (60-90 минут)
В Сбере SQL — основной язык DE. Hive / Impala / Greenplum / Oracle — везде SQL.
Что спрашивают:
- Window functions, CTE, сложные джойны
- Hive-специфичные: bucketing, partitioning, UDF
- Greenplum: distribution key, оптимизатор
- Анализ медленных queries
Подготовка: SQL для DE, SQL-тренажёр.
3. Алгоритмы / coding (60 минут)
LeetCode Easy. Python или Scala. Алгоритмическая планка ниже, чем в Яндексе или Т-Банке.
4. Hadoop / Spark / DE стек (60-90 минут)
Главный технический этап.
Вопросы:
- HDFS архитектура, NameNode, DataNode
- YARN, ресурсы кластера
- Hive vs Impala vs Spark — когда какой
- Spark joins, optimizations, skew
- File формат: Parquet / ORC / Avro
Подготовка: Spark deep dive, ClickHouse и OLAP.
5. DE system design (60-90 минут)
Сценарии:
- «Пайплайн для дневной агрегации транзакций (миллиарды записей)»
- «Спроектируй DWH для нового продукта банка с регуляторными требованиями»
- «Как мигрировать legacy ETL на современный стек»
Что оценивают:
- Data modeling: Kimball, Data Vault 2.0 (популярен в больших банках)
- Регуляторика: data lineage, аудит, retention policies
- Performance: оптимизация для масштабов банка
- Безопасность: шифрование, маскирование PII
Подготовка: data modeling, dbt тесты.
6. Поведенческое / фит
STAR. У Сбера специфика:
- Опыт работы с регуляторами / compliance
- Конфликт с другой командой — как разрешил
- Большой долгий проект — как декомпозировал
- Решение в строгих ограничениях (security, регуляторика)
Особенности по направлениям
| Направление | Стек / задачи |
|---|---|
| Розничный банк | Hadoop, Hive, Greenplum, классический DWH |
| Корп. банк | Высокие требования к точности, согласования |
| Sber AI | Современный lakehouse: Spark, Delta, dbt |
| Финансы / отчётность | Regulatory ETL, Oracle, точность критична |
| Антифрод | Real-time Kafka + Spark Streaming |
| ДомКлик / Сбермаркет | E-com стек, ближе к Ozon |
| Salute / голосовой | Real-time audio data |
Что Сбер ценит в DE
- Production-mindset. Тесты ETL, мониторинг, документация, аудит изменений
- Compliance-aware. Знание ПДн, банковской тайны, GDPR / 152-ФЗ
- SQL глубоко. В Сбере DE пишет SQL ежедневно
- Готовность к процессам. Согласования, ИБ-проверки, длинные циклы — часть работы
- Стабильность. Сбер ценит инженеров, которые не сжигают мосты и работают долго
Как готовиться: план
- SQL deep. Window functions, оптимизация, Hive-специфика.
- Hadoop / Spark. Архитектура HDFS, Spark optimizations.
- DE system design. Регуляторика, аудит, lineage.
- Data modeling. Kimball, Data Vault 2.0.
- dbt + Airflow. Airflow на собесе DE, dbt тесты.
- STAR-истории. Compliance, регуляторика, кросс-функционал.
Частые ошибки
- «Я не думаю про compliance». В банке без этого никуда. Минимум — знать, что такое PII и как маскировать
- Игнор data lineage. В банке требуют tracker откуда пришли данные. Без lineage — failure
- Только современный стек. Сбер работает на legacy + современном. Готовность работать с Oracle / Hive — обязательна
- Слабый SQL. Hive / Greenplum / Oracle — везде SQL. Без него junior уровень
- «Я не пишу документацию». В Сбере без документации не пропустят. Это часть работы
Связанные темы
- Собеседование на Data Engineer
- Собеседование на DS в Сбер AI
- SQL для DE
- Spark deep dive
- data modeling на собесе DE
FAQ
Сколько раундов в Сбере для DE?
Обычно 4-6: HR → SQL → coding → стек → system design → фит. Срок 4-8 недель.
Стек везде одинаковый?
Нет. Розничный банк — Hadoop/Hive/Greenplum. Sber AI — современный lakehouse. ДомКлик — ближе к e-com.
Берут ли junior DE?
Да, через стажировки и Sber School. Программы для джунов есть.
Нужен ли банковский опыт?
Желательно. Можно подучить домен за 2-3 недели до собеса.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.