Собеседование на Data Engineer в Сбере
Содержание:
Почему Сбер — особенный работодатель для DE
Сбер — крупнейший банк РФ с массивной data-инфраструктурой: Hadoop-кластер (petabytes), ClickHouse-аналитика, Greenplum DWH, Kafka-стриминг, Airflow-оркестрация. DE работает с банковскими, риск- и продуктовыми данными, обрабатывая сотни TB ежедневно.
Особенность: enterprise-стэк с длинной историей, многослойная архитектура (источники → ODS → DDS → DWH → витрины), сильный compliance (152-ФЗ, банковская тайна), часть данных под жёсткой regulation. DE отвечает не только за пайплайны, но и за data lineage, качество, retention-policy. Подробнее — на странице карьеры Сбера.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Специфика:
- Был ли опыт с big data (Hadoop / Spark)
- Знание SQL + Python
- Готовность работать с enterprise-стэком
2. SQL и Python (60 минут)
SQL — оконные функции, оптимизация запросов, EXPLAIN PLAN. Python — pandas, общие алгоритмы.
3. Big Data + Spark (60-90 минут)
Главный технический этап. Темы:
- HDFS / Hive — архитектура, partitioning, bucketing
- Spark: RDD vs DataFrame, optimizer, shuffle, partitions
- Skew handling
- Job tuning: executor memory, partitions, broadcast joins
4. Архитектура DWH (60 минут)
«Спроектируй DWH для нового продукта», «slowly changing dimensions», «star schema vs Data Vault», «backfill стратегия».
5. Поведенческое + работа со стейкхолдерами (45-60 минут)
STAR-вопросы.
6. Финал с лидом
Стратегический разговор.
Что Сбер ценит в DE
- Big data навыки. Spark глубоко, Hadoop стек.
- DWH-архитектура. Понимание star schema, SCD, normalization vs denormalization.
- Compliance-aware. Persona-данные требуют особого обращения.
- Качество данных. Data lineage, monitoring, alert на drift.
- SQL deep. Оптимизация, EXPLAIN, partitioning.
Типичные задачи и кейсы
- «Spark job обрабатывает 5 TB за 8 часов, нужно за 1 час. План оптимизации»
- «Spark JOIN двух больших таблиц упирается в shuffle. Решение»
- «Spark job падает на skewed key. Что делать?»
- «Hive vs ClickHouse vs Greenplum — куда складывать какие данные»
- «Sproektируй pipeline для prepares риск-витрины с SLA 30 минут после ETL источника»
Как готовиться: план
- Spark. RDD, DataFrame, Spark SQL, optimizer, shuffle, skew, broadcast.
- Hadoop. HDFS, Hive partitioning + bucketing, ORC / Parquet.
- DWH. Star schema, SCD, Data Vault, Inmon vs Kimball.
- SQL deep. Оконки, EXPLAIN, индексы, materialized views.
- Airflow. Airflow на собесе DE: DAG, sensors, retries.
- ClickHouse / Greenplum. Базовое понимание.
Частые ошибки
- Зубрить термины без практики. «Spark партиционирует данные» — общее место. Spark с конкретными числами (200 партиций, 4 executor, 8 GB на executor) — ценно.
- Игнорировать compliance. Без знания 152-ФЗ и банковской тайны на собесе будет неловко.
- Слабая SQL. В Сбере SQL — фундамент. Оконки, оптимизация — обязательно.
- Не уметь читать EXPLAIN. Без этого оптимизация — гадание.
Связанные темы
- Собеседование на DE в Яндекс
- Собеседование на DE в Т-Банке
- Spark на собесе DE
- Airflow на собесе DE
- DWH ClickHouse на собесе DE
FAQ
Сколько этапов в собеседовании на DE в Сбере?
Обычно 5-6: рекрутер → SQL/Python → big data → DWH-архитектура → поведенческое → финал. Срок 4-6 недель.
Нужен ли опыт в банке?
Желателен, но не обязателен. Релевантным считается опыт с большими данными в enterprise-среде.
Какие инструменты главные?
Spark + Hadoop + Hive + Greenplum/ClickHouse + Airflow + Kafka.
Какой уровень SQL ожидается?
Уверенный senior. Оконки, EXPLAIN, оптимизация, индексы.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.