Собеседование на Data Engineer в ВТБ
Содержание:
Почему ВТБ — особенный работодатель для DE
ВТБ — второй по активам банк РФ. DE работает в enterprise-среде с массивной data-инфраструктурой: Hadoop / Spark для batch, Greenplum для DWH, Airflow для оркестрации, Kafka для streaming. Часть систем — legacy mainframe + DB2, часть — современные микросервисы.
Особенность: enterprise + банковский compliance. Длинные циклы согласования архитектурных решений (риск, IT-безопасность, юристы). Жёсткие требования к stability и retention данных. Подробнее — на странице карьеры ВТБ.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Специфика:
- Был ли опыт в банке / финтехе
- Знание SQL deep + Python
- Готовность к enterprise-темпу
2. SQL и Python (60 минут)
SQL — оконки, EXPLAIN, оптимизация. Python — pandas, базовый pyspark.
3. Big Data + Spark (60-90 минут)
Spark deep. Особый фокус — PII (personally identifiable information).
4. DWH (Greenplum) (45-60 минут)
Greenplum как MPP, distribution keys, partitioning, оптимизация.
5. Архитектура (60 минут)
«Pipeline для скоринг-витрины», «backfill изменений risk-модели», «обработка PII согласно 152-ФЗ».
6. Поведенческое + финал
STAR + стратегический разговор.
Что ВТБ ценит в DE
- Big data навыки. Spark глубоко.
- Greenplum. Distribution keys, partitioning, MPP-оптимизация.
- Compliance. 152-ФЗ, банковская тайна, инструкции ЦБ.
- DWH. Star schema, SCD.
- Stability. Pipelines работают годами, надёжность важнее скорости.
Типичные задачи и кейсы
- «Spark job на 5 TB транзакций. SLA — 1 час. Что оптимизировать»
- «Greenplum: distribution key для скоринговой витрины. Что выбрать»
- «Обработка PII в логах: 152-ФЗ-compliant подход»
- «Миграция данных с mainframe DB2 на современную БД»
- «Backfill месячных скоринговых данных без downtime витрины»
Как готовиться: план
- Spark deep. RDD, DataFrame, optimizer, shuffle, skew.
- Greenplum. Distribution keys, partitioning, EXPLAIN.
- Compliance. 152-ФЗ, банковская тайна.
- DWH. Star schema, SCD 1/2/3.
- Airflow. Airflow на собесе DE.
- SQL deep. Оконки, оптимизация.
Частые ошибки
- Игнорировать compliance. PII / 152-ФЗ — must.
- Слабая SQL. Senior-уровень.
- Spark поверхностно. Без shuffle / skew / broadcast — слабо.
- Не понимать MPP. Greenplum специфика — distribution keys.
Связанные темы
- Собеседование на DE в Сбере
- Собеседование на DE в Альфа-Банке
- Собеседование на DE в Т-Банке
- Spark на собесе DE
- Собеседование на SA в ВТБ
FAQ
Сколько этапов в собеседовании на DE в ВТБ?
Обычно 5-6: рекрутер → SQL/Python → Spark → Greenplum → архитектура → поведенческое + финал. Срок 4-6 недель.
Нужен ли банковский опыт?
Желателен. Релевантным считается опыт в финтехе или enterprise с PII.
Какие инструменты главные?
Spark + Hadoop + Greenplum + ClickHouse + Airflow + Kafka.
Какой уровень SQL?
Уверенный senior. EXPLAIN, оконки, оптимизация.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.