Cloud ETL tools на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
AWS Glue
Serverless ETL на AWS.
Components:
- Data Catalog. Hive-compatible metadata store.
- Crawlers. Auto-discover schemas из S3.
- Jobs. PySpark / Python shell. Serverless execution.
- DataBrew. Visual data preparation.
Pricing. DPU-hours.
Pros: integrated с AWS (S3, Athena, Redshift). Serverless — no infra.
Cons: vendor lock-in. PySpark only (no Scala).
GCP Dataflow
Apache Beam на managed runner.
Свойства:
- Unified batch + streaming.
- Auto-scaling.
- SDK Java, Python, Go.
- Beam — portable между runners (Dataflow, Spark, Flink).
Hot для streaming в GCP.
Azure Data Factory
Visual ETL designer + code.
Свойства:
- Drag-drop pipeline builder.
- Mapping data flows (visual SSIS-style).
- Code-based для complex.
- Integration runtime — bridge cloud / on-prem.
В РФ практически не используется (Azure недоступен).
Yandex DataTransfer
Managed CDC / replication в Yandex Cloud.
Свойства:
- Sources: Postgres, MySQL, MongoDB, ClickHouse, Greenplum.
- Targets: Yandex DWH stack (CH, GP), S3-compatible.
- Snapshot + ongoing replication.
- Schema migration.
Плюс Yandex MapReduce, Yandex DataProc (Spark managed).
Сравнение
| AWS Glue | Dataflow | ADF | Yandex | |
|---|---|---|---|---|
| Тип | ETL job | Streaming + batch | Visual ETL | CDC / replication |
| Cloud | AWS | GCP | Azure | Yandex |
| Available в РФ | Limited | Limited | No | Yes |
| Open standards | Spark API | Apache Beam | Some | Postgres-compat |
В РФ: Yandex DataTransfer + Airflow + Spark на DataProc — common stack.
Связанные темы
- Airbyte vs Fivetran для DE
- Airflow на собесе DE
- CDC и Debezium на собесе DE
- Snowflake vs BigQuery для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации AWS / GCP / Yandex Cloud.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.