Собеседование на Data Engineer в Т-Банке
Содержание:
Почему Т-Банк — особенный работодатель для DE
Т-Банк — один из сильнейших DE-работодателей в РФ: real-time-стек на Kafka, аналитическое хранилище на Greenplum, ClickHouse для оперативных дашбордов, Airflow для batch-pipeline. Особенность — близость к продукту: DE поддерживает не отчёты, а реальные функции приложения (антифрод, скоринг, real-time alerts).
Это отличает Т-Банк от классического банка: data-стек ближе к технологическим компаниям. Открытый стек, прозрачный найм, формальные грейды. Актуальные вакансии — на карьерной странице Т-Банка.
Информация основана на публичных источниках и опыте кандидатов. Команды Т-Банка имеют разные процессы — уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30-40 минут)
Знакомство:
- Опыт DE и стек
- Готов ли к real-time-стеку (Kafka, streaming)
- Опыт с MPP-DWH (Greenplum / Vertica / Redshift)
Питч 90 секунд.
2. SQL deep dive (60-90 минут)
Глубокий SQL — must. У Т-Банка много транзакционных данных, и DE постоянно пишет аналитику для бизнеса.
Что спрашивают:
- Window functions, complex CTE
- Оптимизация: distribution key, partitioning в Greenplum
- Анализ медленных queries
- Дедупликация, slowly changing dimensions
Подготовка: SQL для DE, SQL-тренажёр.
3. Алгоритмы / coding (60 минут)
LeetCode Medium. Python. Иногда — задача на эффективную обработку streaming-данных в Python.
4. DE system design (60-90 минут)
Сценарий:
- «Сделай real-time антифрод-pipeline: данные карты → ML-модель → решение меньше чем за 100ms»
- «Спроектируй DWH для нового продукта банка»
- «Как мигрировать batch ETL на streaming»
Что оценивают:
- Понимание real-time vs batch trade-off
- Знание Kafka: partitions, consumer groups, exactly-once semantics
- Greenplum MPP: distribution key, broadcast vs redistribute
- Idempotency, retries, dead-letter queues
Подготовка: Kafka streaming, data modeling, CDC и Debezium.
5. Стек-specific (45-60 минут)
В зависимости от команды:
Real-time (Kafka):
- Топик-дизайн, partitioning стратегия
- At-least-once vs exactly-once
- Backpressure handling
Greenplum / MPP:
- Distribution key, partitioning
- VACUUM, ANALYZE, optimizer
- Спан query planner
ClickHouse:
- MergeTree engines
- Distributed tables, replication
Подготовка: Apache Flink на собесе DE, CDC vs batch loading.
6. Поведенческое / фит
STAR. У Т-Банка:
- Расскажи про инцидент, который чинил
- Конфликт с DS / PM — как решал
- Большой технический долг, который убирал
- Решение в условиях неопределённости (с неполными данными)
Особенности по командам
| Команда | Стек / задачи |
|---|---|
| Антифрод / Risk | Real-time Kafka, ML feature stores, latency < 100ms |
| Скоринг | Batch ETL, dbt, Airflow, тестовые наборы |
| Marketing / CRM | Kafka + Greenplum, customer 360°, event-based segmentation |
| Олег (assistant) | Real-time data для NLP-моделей |
| BI / Analytics | Greenplum, ClickHouse, BI-инструменты (Apache Superset) |
| Infrastructure | Внутренние data-platform tools |
Что Т-Банк ценит в DE
- Real-time mindset. Не «batch раз в час подойдёт», а «понимаю когда нужен streaming и почему»
- Production-mindset. Тесты ETL, мониторинг, alerts, data quality — обязательны
- SQL глубоко. Не «использую SELECT *», а «вижу EXPLAIN и знаю как оптимизировать»
- Готовность спорить. Аргументы через числа (latency, throughput, cost) — нормально
- Domain knowledge. Банковский домен: транзакции, антифрод, KYC, регуляторика — нужно понимать минимум
Как готовиться: план
- SQL deep. Window functions, CTE, оптимизация. EXPLAIN-анализ.
- Kafka streaming. Kafka streaming subtopic, at-least-once vs exactly-once, partitioning.
- MPP-DWH. Greenplum архитектура, distribution, partitioning. Альтернативно — Snowflake / BigQuery.
- Airflow + dbt. Airflow на собесе DE, dbt тесты.
- DE system design. Real-time antifraud, batch DWH, lakehouse.
- STAR-истории. Инцидент, decision без данных, кросс-функциональная работа.
Частые ошибки
- «Real-time = это просто Kafka». Без понимания exactly-once, idempotency, dead-letter queues — слабо
- Игнор latency бюджета. «Я обрабатываю запросы в Python» — для real-time антифрода latency < 100ms нужна. Python обычно недостаточен
- Слабый SQL. В Т-Банке DE пишет SQL ежедневно. Без window functions / CTE — failure
- Без monitoring. ETL без data quality checks, без freshness alerts — junior уровень
- Регуляторика игнорируется. Банковская тайна, ПДн — компоненты архитектуры. Не «отдам потом security»
Связанные темы
- Собеседование на Data Engineer
- Собеседование на DS в Т-Банке
- Kafka streaming
- SQL для DE
- Airflow паттерны
FAQ
Сколько раундов в Т-Банке для DE?
Обычно 4-6: рекрутер → SQL → coding → system design → стек-specific → фит. Срок 3-6 недель.
Нужен ли опыт банковского домена?
Желательно, но не строго. Сильный DE без банка проходит. Junior без банка сложнее.
Какой основной стек DE?
Kafka + Greenplum + Airflow + dbt + ClickHouse. В разных командах акцент разный.
Берут ли в Т-Банк junior DE?
Через стажировки и Tinkoff Education. Сильный конкурс.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.