Cloud ETL tools на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

AWS Glue

Serverless ETL на AWS.

Components:

  • Data Catalog. Hive-compatible metadata store.
  • Crawlers. Auto-discover schemas из S3.
  • Jobs. PySpark / Python shell. Serverless execution.
  • DataBrew. Visual data preparation.

Pricing. DPU-hours.

Pros: integrated с AWS (S3, Athena, Redshift). Serverless — no infra.

Cons: vendor lock-in. PySpark only (no Scala).

GCP Dataflow

Apache Beam на managed runner.

Свойства:

  • Unified batch + streaming.
  • Auto-scaling.
  • SDK Java, Python, Go.
  • Beam — portable между runners (Dataflow, Spark, Flink).

Hot для streaming в GCP.

Azure Data Factory

Visual ETL designer + code.

Свойства:

  • Drag-drop pipeline builder.
  • Mapping data flows (visual SSIS-style).
  • Code-based для complex.
  • Integration runtime — bridge cloud / on-prem.

В РФ практически не используется (Azure недоступен).

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Yandex DataTransfer

Managed CDC / replication в Yandex Cloud.

Свойства:

  • Sources: Postgres, MySQL, MongoDB, ClickHouse, Greenplum.
  • Targets: Yandex DWH stack (CH, GP), S3-compatible.
  • Snapshot + ongoing replication.
  • Schema migration.

Плюс Yandex MapReduce, Yandex DataProc (Spark managed).

Сравнение

AWS Glue Dataflow ADF Yandex
Тип ETL job Streaming + batch Visual ETL CDC / replication
Cloud AWS GCP Azure Yandex
Available в РФ Limited Limited No Yes
Open standards Spark API Apache Beam Some Postgres-compat

В РФ: Yandex DataTransfer + Airflow + Spark на DataProc — common stack.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации AWS / GCP / Yandex Cloud.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.