ETL-инженер vs data-инженер
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Короткий ответ
- ETL-инженер — узкая роль: строит pipeline'ы extract-transform-load.
- Data engineer — широкая роль: включает ETL + инфраструктуру, streaming, data platform.
В современных tech компаниях чаще встречается «data engineer». «ETL engineer» — более traditional title.
Сравнение
| ETL Engineer | Data Engineer | |
|---|---|---|
| Главный фокус | pipeline'ы ETL | вся data infrastructure |
| Инструменты | Informatica, SSIS, Talend, Airflow | Airflow + Spark + Kafka + cloud |
| Форматы | реляционные, CSV | любые (JSON, Parquet, stream) |
| Облако | меньше | больше |
| Streaming | редко | часто |
| DWH / lake | использует | проектирует |
| Coding | SQL + немного Python | Python / Scala / Java + SQL |
| Зарплата РФ | 150-250K ₽ | 200-400K ₽ |
ETL Engineer
Задачи
- Извлекать данные из source-систем (Oracle, SAP)
- Трансформировать (очистка, enrichment, агрегация)
- Загружать в DWH
- Поддержка существующих pipeline'ов
- Мониторинг и бейапка
Типичный стек
- Legacy: Informatica, DataStage, SSIS, Talend (GUI-инструменты)
- Modern: Airflow, dbt
- SQL (продвинутый)
- Python для custom логики
Где работают
- Банки
- Страховые
- Enterprise с on-premise инфраструктурой
- Традиционные ритейлеры
Data Engineer
Задачи
- ETL/ELT: тот же pipeline work
- Data platform: архитектура DWH / Lake / Lakehouse
- Streaming: Kafka, Flink для real-time
- Infrastructure: dev / prod environments, CI/CD
- Data quality: frameworks для тестов и мониторинга
- Cost optimization: оптимизация запросов / compute
Типичный стек
- Orchestration: Airflow, Dagster, Prefect
- Transform: dbt, Spark
- Streaming: Kafka, Flink, Spark Streaming
- Cloud: AWS / GCP / Azure (S3, EMR, Databricks, Snowflake, BigQuery)
- Languages: Python, Scala, Java
- Infrastructure: Terraform, Docker, Kubernetes
Где работают
- Tech-компании (Yandex, VK, Avito, Ozon)
- SaaS-стартапы
- Fintech с modern stack
- Компании с облачной инфраструктурой
Как развивалась роль
2000-е: ETL engineer с GUI-инструментами (Informatica). 2010-е: Появляется "data engineer" с Hadoop / Spark. 2020-е: Cloud + modern data stack (Snowflake, dbt, Fivetran). 2026: Data engineer = более широкая техническая роль, ближе к DevOps / backend.
Что ещё знает data engineer
Analytics Engineer
Под-специализация на стыке data engineering и analytics:
- dbt + SQL + data modeling
- Focus на business layer в DWH
- Dimensional modeling (star schema)
- Тесты данных
- Self-service analytics infrastructure
Analytics Engineer — bridge между data engineer и analyst.
Примеры проектов
ETL Engineer
- «Перегнать данные из Oracle → DWH каждую ночь»
- «Добавить новую source — Salesforce в DWH»
- «Fix slow query в ETL pipeline»
Data Engineer
- «Построить real-time dashboard (stream processing)»
- «Migrate data platform from on-premise to AWS»
- «Build data lake для ML команды»
- «Create data quality framework»
- «Design new DWH schema для нового продукта»
Навыки
Общие
- SQL (продвинутый)
- Python
- Linux / Git
- Data modeling
Уникальные для data engineer
- Distributed systems (Spark, Hadoop)
- Cloud platforms
- Kubernetes / Docker
- Streaming (Kafka)
- Infrastructure as code (Terraform)
- CI/CD
Кому что выбрать
ETL Engineer если:
- Нравятся ясные, повторяющиеся задачи
- Работаете в enterprise / банк
- Не хотите DevOps-ных задач
- Не гонитесь за максимумом зарплаты
Data Engineer если:
- Нравится инфраструктура и system design
- Хотите работать в tech-компаниях
- Готовы к постоянному обучению
- Интересна современная экосистема
Карьерный путь
ETL Engineer →
- Senior ETL Engineer
- Data Engineer (расширение стека)
- Data Architect
- BI Engineer
Data Engineer →
- Senior Data Engineer
- Staff / Principal Engineer
- Data Platform Engineer
- Tech Lead
- Analytics Engineer (специализация)
На собесе
«Чем отличается ETL от data engineer?» ETL — часть data engineering. Data engineer знает ETL + infrastructure + streaming + cloud.
«Что важнее — ETL или data platform?» ETL — tactical. Platform — strategic. На middle+ уровне оба.
«Python или Scala?» Python доминирует. Scala — для Spark-heavy проектов в enterprise.
Связанные темы
- ETL что это
- ETL vs ELT
- Batch vs stream processing
- Data warehouse vs database
- Data lake vs data warehouse
FAQ
ETL engineer вымирает?
В tech — да. В enterprise — ещё работает. Modern stack = data engineer.
Можно ли перейти из ETL в data engineer?
Да. Нужно подтянуть cloud + streaming + infrastructure.
Analytics engineer — отдельная роль?
Да, specialized data engineer с focus на business / dbt / SQL.
Python хватит?
Для DE — да, как основной. Но Scala / Java полезны в больших компаниях с Spark.
Тренируйте data engineering — откройте тренажёр с 1500+ вопросами для собесов.