Собеседование на Data Engineer в Совкомбанк
Содержание:
Почему Совкомбанк — особенный работодатель для DE
Совкомбанк — один из крупнейших частных банков России: универсальная розница, корпоративный бизнес, лизинг, страхование, инвестиционные продукты, активная M&A-история (покупки региональных банков и небанковских активов). После этой серии слияний у банка зоопарк систем-источников — core banking, карточные процессинги, CRM, операционные приложения — и от Data Engineer ожидают спокойного и продуманного интеграционного подхода. Для DE это очень характерный банковский контекст: большая регуляторная нагрузка, требования ЦБ по отчётности и архивированию, плюс активный продуктовый банк, где скорость доставки данных в продуктовые команды напрямую влияет на бизнес.
Главные DE-домены: построение и поддержка регуляторных витрин (отчётность ЦБ — формы 0409, 101, 102, AML/КОД), интеграция систем после M&A (CDC с десятков источников разной зрелости), real-time pipeline для антифрода и кредитного решения (sub-second latency на сценариях карточных операций), CRM-витрины для маркетинга и кросс-сейл, аналитические витрины для риск-функции (PD, LGD, EAD, IFRS-9 staging), data quality и data lineage для регуляторных проверок, миграция legacy ETL на современный стек.
Стек: PostgreSQL + Oracle (core banking) + Greenplum для DWH + ClickHouse для real-time аналитики и фичей; Airflow + dbt + Spark; Kafka + Debezium для CDC; современный data lake на S3-совместимых хранилищах + Iceberg/Hudi для исторических данных; Grafana + custom-инструменты для observability. Часть legacy на Informatica и SAS, активно мигрируется. Команда заметно выросла за последние годы — банк инвестирует в DE-направление.
Актуальные вакансии — на hh.ru и сайте Совкомбанка.
Информация основана на публичных источниках и опыте кандидатов. Команды Совкомбанка используют разные процессы — формат и этапы зависят от направления и грейда, уточняйте у рекрутера.
Этапы собеседования
Полный цикл — 3-5 недель, 4-5 этапов. Процесс прагматичный: HR, техническое интервью, кодинг и SQL, продуктово-архитектурный кейс, финал. Алгоритмическая планка средняя, без LeetCode Hard. Для ролей с допусками к регуляторным данным есть СБ-этап.
1. HR-скрининг (30-45 минут)
Рекрутер уточняет: production-опыт DE (от 2 лет, желательно с банковским контекстом или большими интеграциями), знание классического и современного DWH-стека, мотивацию идти именно в Совкомбанк, ожидания по компенсации и формату работы (Москва, Кострома — головной офис, есть гибрид). Готовь питч на 90 секунд про самый зрелый production-pipeline с цифрами по объёмам и SLA.
2. Техническое интервью / SQL и архитектура (60-90 минут)
Базовая секция с senior DE из команды. Темы: SQL deep dive (оконные функции, рекурсивные CTE, оптимизация запросов на больших фактических таблицах, partitioning, индексы, EXPLAIN), модели данных (звезда vs снежинка, SCD типы 1/2/4/6, anchor modeling, data vault — банковские модели часто используют Data Vault), batch vs streaming (Lambda vs Kappa архитектуры, когда что), CDC (Debezium, log-based vs trigger-based), data quality (тесты в dbt, Great Expectations), data lineage. Часто специфический вопрос: «как ты бы построил инкрементную загрузку для таблицы с миллионом транзакций в день и обновлениями старых записей».
Подготовка: SQL для DE, Data modeling, CDC и event sourcing.
3. Python + SQL live coding (60-90 минут)
Задачи прагматичные, без LeetCode Hard: 1-2 на SQL (оконки, JOIN, оптимизация — часто на банковских данных вроде «найди клиентов с подозрительными паттернами транзакций»), 1-2 на Python (pandas, простые ETL-задачи, парсинг JSON-payload). Часто живой кейс: «дам тебе схему трёх таблиц core banking, спроектируй запрос для регуляторной отчётности». Готовиться: 30-50 SQL Medium-Hard задач + 20 простых на Python.
Подготовка: SQL для DE, Spark deep dive.
4. Продуктово-архитектурный кейс (60-90 минут)
Самая характерная секция. Кейс архитектурный: «спроектируй pipeline для регуляторной отчётности по форме 0409», «как ты бы построил CDC из 3 source-систем после M&A», «как сделать real-time витрину для антифрода с latency < 200мс». Нужно: уточнить требования (объём данных, SLA, регуляторика), описать архитектуру (источники → транспорт → процессинг → витрина), выбрать стек и обосновать, продумать data quality и monitoring, обсудить trade-off batch vs streaming, заложить план рекавери. Сильный сигнал — учёт регуляторных требований (хранение N лет, immutable logs, доказательная цепочка для проверок ЦБ).
Подготовка: Airflow patterns, Monitoring и data quality.
5. Финал с тимлидом / СБ + оффер (1-2 недели)
Беседа с тимлидом и/или руководителем направления. Проверяют поведенческие истории (STAR), отношение к корпоративной работе, готовность к ответственности за регуляторные пайплайны, обсуждают грейд. Для ролей с допусками — СБ-проверка.
Особенности по командам
Регуляторная отчётность и риск-витрины. Команда отвечает за регулярные отчёты ЦБ, IFRS-9 staging для risk-команды, AML и КОД-витрины. Стек — Greenplum + Airflow + dbt + Spark + кастомные правила валидации. Челлендж — изменения регуляторных требований несколько раз в год, длинные циклы тестирования (отчёт идёт в ЦБ, ошибка стоит дорого), необходимость доказательной цепочки. Подойдёт кандидатам с банковским DWH-опытом или зрелым ETL-фоном.
Real-time pipeline для антифрода и кредитного решения. Команда занимается потоковыми витринами для антифрода (карточные операции, P2P, заявки на кредит), real-time скоринг. Стек — Kafka + Debezium + ClickHouse + кастомные стриминговые сервисы на Python/Go. Челлендж — sub-second latency, exactly-once гарантии, fallback на старую модель при деградации. Подойдёт DE с background в стримах или fintech-real-time.
CRM и продуктовые витрины. Команда строит витрины для маркетинга, CRM, кросс-сейл, программы лояльности. Стек — dbt + Greenplum + ClickHouse + Airflow + интеграция с CDP. Челлендж — интеграция данных из десятков продуктов после M&A, согласование single customer view. Подойдёт DE с продуктовым опытом или CRM-аналитикой.
Data Lake и историзация. Команда строит хранилище исторических данных (Iceberg/Hudi на S3-совместимом), архивирование, поддержку «холодного» доступа для аудита и регуляторных проверок. Стек — Spark + Iceberg/Hudi + Trino/Presto + S3. Подойдёт DE с big-data background.
Migration team (legacy → modern). Команда занимается миграцией legacy Informatica/SAS-пайплайнов на современный стек dbt+Airflow+Spark. Стек — dbt + Airflow + Python + legacy-системы как источники. Челлендж — параллельный запуск и проверка эквивалентности результатов. Подойдёт кандидатам с зрелым ETL-background и терпением к legacy.
Что Совкомбанк ценит в DE
Production-опыт. Не Kaggle-experience, а pipeline в проде с SLA и регуляторной отчётностью. «Сделал pipeline на Kaggle» — не история. «Запустил CDC из 4 source-систем core banking, latency < 30 секунд, 99.9% доступность за полгода» — это история.
Банковский контекст. Опыт в банке, страховой или fintech — большой плюс. Кандидаты из чистого e-com рассматриваются, но с пониманием, что им нужно доучивать регуляторику и финансовые продукты.
Регуляторная зрелость. Кандидат, который понимает специфику ЦБ-отчётности, AML, IFRS-9 — сильный сигнал. Если не работал в банке — освежи термины до собеса.
Weak vs strong на архитектурном кейсе. Слабый ответ: «сделаем Kafka + Spark Streaming для регуляторной отчётности — это modern stack». Сильный ответ: «регуляторная отчётность — это batch с подтверждением консистентности, а не streaming. Возьму Airflow + dbt + Greenplum. Источники — через CDC в data lake, оттуда инкрементная загрузка в DWH через dbt с обязательными тестами на reconciliation с источниками. Streaming оставлю для антифрода и real-time-скоринга, где latency реально критична. На каждом шаге доказательная цепочка: lineage, audit trail, immutable снапшоты для проверок ЦБ».
Готовность к корпоративной среде. Совкомбанк — крупный банк с регламентами, согласованиями, СБ-проверками. Кандидат, который ругает «бюрократию» в принципе, рискует получить -1.
Self-management. Циклы проектов длинные (3-6 месяцев), много стейкхолдеров. DE, который теряется без ежедневной обратной связи, рассматривается слабее.
Как готовиться: план
За 5-7 недель до планируемого собеса:
- Неделя 1-2 — SQL deep dive и data modeling. Оконные функции, рекурсивные CTE, оптимизация запросов, partitioning, индексы, EXPLAIN. Модели данных (звезда, снежинка, SCD типы, Data Vault — банковская специфика). Прорешай 30 SQL Medium-Hard задач. Параллельно — на Карьернике обнови базу по SQL и Python: 1500+ задач, по 15-20 минут в день, чтобы закрыть пробелы по оконкам, JOIN, агрегатам и не путаться на простых вопросах.
- Неделя 3 — Современный data stack. Airflow patterns (sensors, dynamic DAGs, backfill, XCom, deferrable operators), dbt (модели, тесты, snapshots, sources, exposures), Spark (RDD vs DataFrame, оптимизация, partitioning, shuffle), Kafka (topics, partitions, consumer groups), Debezium для CDC.
- Неделя 4 — Банковский контекст. Прочитай блог Сбера про DE, статьи Tinkoff про data, поверхностно ЦБ-отчётность (формы 0409). Запомни понятия: core banking, процессинг карт, AML/КФМ, IFRS-9 staging, PD/LGD/EAD, transition matrix, единый клиент (Single Customer View).
- Неделя 5 — Архитектурные кейсы. Прорешай 5-6 кейсов: регуляторная отчётность ЦБ, CDC из 3 систем после M&A, real-time антифрод, миграция Informatica → dbt, single customer view. Структура — требования → источники → транспорт → процессинг → витрина → SLA → recovery. Airflow patterns.
- Неделя 6-7 — Mocks и behavioral. Mock-интервью, 5-7 STAR-историй: конфликт с риск-командой, факап в проде (помог регуляторный отчёт пройти), длинная миграция, история про SLA.
Частые ошибки
Хайпуют стримингом везде. Кандидат проектирует регуляторную отчётность через Kafka Streaming. Не упоминает, что для отчёта ЦБ важна не скорость, а консистентность и доказательная цепочка. Балл проседает.
Не разбираются в банковской регуляторике. «Что такое форма 0409?» — кандидат теряется. На архитектурном кейсе это сразу видно.
Не думают про reconciliation. Кандидат строит pipeline без проверки соответствия источникам. В банке расхождение в копейку — это потерянная неделя на разбор. Reconciliation должен быть в дизайне с самого начала.
Игнорируют SLA и доступность. Кандидат рассказывает только про функциональность. Не упоминает RPO/RTO, SLA, plan B при недоступности источника. В банке это критично — DE отвечает за то, чтобы отчёт ушёл в срок.
Не задают вопросы про объёмы и латентность. На кейсе сразу — стек, а не «сколько данных в день, какие пики, какие SLA, какие требования регуляторики». Это первый фильтр.
Связанные темы
- Собеседование на Data Engineer
- SQL для DE
- Data modeling
- Собеседование на Data Engineer в Альфа-Банке
- Собеседование на Data Scientist в Совкомбанке
FAQ
Удалёнка в Совкомбанке для DE?
Гибрид с офисами в Костроме (исторический головной) и Москве. Полная удалёнка возможна для senior+ при согласовании, но это не правило. Для ролей с допусками к регуляторным данным — чаще офис.
Зарплатные вилки 2026?
Middle DE: 250-380k. Senior: 380-600k. Lead/Staff — выше, особенно в real-time и data lake направлениях. Бонусная схема привязана к KPI команды.
Нужен ли английский?
Базовый — для документации. Свободного говорящего не требуется, основная команда русскоязычная.
Сколько этапов?
4-5 этапов, 3-5 недель от первого скрининга до оффера. Для ролей с регуляторными допусками — плюс 1-2 недели на СБ.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера — формат и грейды отличаются по командам.