Собеседование на Data Engineer в Сбере

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Сбер — особенный работодатель для DE

Сбер — крупнейший банк РФ с массивной data-инфраструктурой: Hadoop-кластер (petabytes), ClickHouse-аналитика, Greenplum DWH, Kafka-стриминг, Airflow-оркестрация. DE работает с банковскими, риск- и продуктовыми данными, обрабатывая сотни TB ежедневно.

Особенность: enterprise-стэк с длинной историей, многослойная архитектура (источники → ODS → DDS → DWH → витрины), сильный compliance (152-ФЗ, банковская тайна), часть данных под жёсткой regulation. DE отвечает не только за пайплайны, но и за data lineage, качество, retention-policy. Подробнее — на странице карьеры Сбера.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Специфика:

  • Был ли опыт с big data (Hadoop / Spark)
  • Знание SQL + Python
  • Готовность работать с enterprise-стэком

2. SQL и Python (60 минут)

SQL — оконные функции, оптимизация запросов, EXPLAIN PLAN. Python — pandas, общие алгоритмы.

3. Big Data + Spark (60-90 минут)

Главный технический этап. Темы:

  • HDFS / Hive — архитектура, partitioning, bucketing
  • Spark: RDD vs DataFrame, optimizer, shuffle, partitions
  • Skew handling
  • Job tuning: executor memory, partitions, broadcast joins

4. Архитектура DWH (60 минут)

«Спроектируй DWH для нового продукта», «slowly changing dimensions», «star schema vs Data Vault», «backfill стратегия».

5. Поведенческое + работа со стейкхолдерами (45-60 минут)

STAR-вопросы.

6. Финал с лидом

Стратегический разговор.

Что Сбер ценит в DE

  • Big data навыки. Spark глубоко, Hadoop стек.
  • DWH-архитектура. Понимание star schema, SCD, normalization vs denormalization.
  • Compliance-aware. Persona-данные требуют особого обращения.
  • Качество данных. Data lineage, monitoring, alert на drift.
  • SQL deep. Оптимизация, EXPLAIN, partitioning.

Типичные задачи и кейсы

  • «Spark job обрабатывает 5 TB за 8 часов, нужно за 1 час. План оптимизации»
  • «Spark JOIN двух больших таблиц упирается в shuffle. Решение»
  • «Spark job падает на skewed key. Что делать?»
  • «Hive vs ClickHouse vs Greenplum — куда складывать какие данные»
  • «Sproektируй pipeline для prepares риск-витрины с SLA 30 минут после ETL источника»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Spark. RDD, DataFrame, Spark SQL, optimizer, shuffle, skew, broadcast.
  2. Hadoop. HDFS, Hive partitioning + bucketing, ORC / Parquet.
  3. DWH. Star schema, SCD, Data Vault, Inmon vs Kimball.
  4. SQL deep. Оконки, EXPLAIN, индексы, materialized views.
  5. Airflow. Airflow на собесе DE: DAG, sensors, retries.
  6. ClickHouse / Greenplum. Базовое понимание.

Частые ошибки

  • Зубрить термины без практики. «Spark партиционирует данные» — общее место. Spark с конкретными числами (200 партиций, 4 executor, 8 GB на executor) — ценно.
  • Игнорировать compliance. Без знания 152-ФЗ и банковской тайны на собесе будет неловко.
  • Слабая SQL. В Сбере SQL — фундамент. Оконки, оптимизация — обязательно.
  • Не уметь читать EXPLAIN. Без этого оптимизация — гадание.

Связанные темы

FAQ

Сколько этапов в собеседовании на DE в Сбере?

Обычно 5-6: рекрутер → SQL/Python → big data → DWH-архитектура → поведенческое → финал. Срок 4-6 недель.

Нужен ли опыт в банке?

Желателен, но не обязателен. Релевантным считается опыт с большими данными в enterprise-среде.

Какие инструменты главные?

Spark + Hadoop + Hive + Greenplum/ClickHouse + Airflow + Kafka.

Какой уровень SQL ожидается?

Уверенный senior. Оконки, EXPLAIN, оптимизация, индексы.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.