Собеседование на Data Engineer в ВТБ

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему ВТБ — особенный работодатель для DE

ВТБ — второй по активам банк РФ. DE работает в enterprise-среде с массивной data-инфраструктурой: Hadoop / Spark для batch, Greenplum для DWH, Airflow для оркестрации, Kafka для streaming. Часть систем — legacy mainframe + DB2, часть — современные микросервисы.

Особенность: enterprise + банковский compliance. Длинные циклы согласования архитектурных решений (риск, IT-безопасность, юристы). Жёсткие требования к stability и retention данных. Подробнее — на странице карьеры ВТБ.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Специфика:

  • Был ли опыт в банке / финтехе
  • Знание SQL deep + Python
  • Готовность к enterprise-темпу

2. SQL и Python (60 минут)

SQL — оконки, EXPLAIN, оптимизация. Python — pandas, базовый pyspark.

3. Big Data + Spark (60-90 минут)

Spark deep. Особый фокус — PII (personally identifiable information).

4. DWH (Greenplum) (45-60 минут)

Greenplum как MPP, distribution keys, partitioning, оптимизация.

5. Архитектура (60 минут)

«Pipeline для скоринг-витрины», «backfill изменений risk-модели», «обработка PII согласно 152-ФЗ».

6. Поведенческое + финал

STAR + стратегический разговор.

Что ВТБ ценит в DE

  • Big data навыки. Spark глубоко.
  • Greenplum. Distribution keys, partitioning, MPP-оптимизация.
  • Compliance. 152-ФЗ, банковская тайна, инструкции ЦБ.
  • DWH. Star schema, SCD.
  • Stability. Pipelines работают годами, надёжность важнее скорости.

Типичные задачи и кейсы

  • «Spark job на 5 TB транзакций. SLA — 1 час. Что оптимизировать»
  • «Greenplum: distribution key для скоринговой витрины. Что выбрать»
  • «Обработка PII в логах: 152-ФЗ-compliant подход»
  • «Миграция данных с mainframe DB2 на современную БД»
  • «Backfill месячных скоринговых данных без downtime витрины»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Spark deep. RDD, DataFrame, optimizer, shuffle, skew.
  2. Greenplum. Distribution keys, partitioning, EXPLAIN.
  3. Compliance. 152-ФЗ, банковская тайна.
  4. DWH. Star schema, SCD 1/2/3.
  5. Airflow. Airflow на собесе DE.
  6. SQL deep. Оконки, оптимизация.

Частые ошибки

  • Игнорировать compliance. PII / 152-ФЗ — must.
  • Слабая SQL. Senior-уровень.
  • Spark поверхностно. Без shuffle / skew / broadcast — слабо.
  • Не понимать MPP. Greenplum специфика — distribution keys.

Связанные темы

FAQ

Сколько этапов в собеседовании на DE в ВТБ?

Обычно 5-6: рекрутер → SQL/Python → Spark → Greenplum → архитектура → поведенческое + финал. Срок 4-6 недель.

Нужен ли банковский опыт?

Желателен. Релевантным считается опыт в финтехе или enterprise с PII.

Какие инструменты главные?

Spark + Hadoop + Greenplum + ClickHouse + Airflow + Kafka.

Какой уровень SQL?

Уверенный senior. EXPLAIN, оконки, оптимизация.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.