Cloud ETL tools на собеседовании Data Engineer

Проверь себя · 1/3разбор после ответа
Есть таблицы payments(user_id) и refunds(user_id). Нужно получить пользователей, у которых был платёж, но не было ни одного возврата. Какой запрос корректнее всего описывает задачу?

AWS Glue

Serverless ETL на AWS.

Components:

  • Data Catalog. Hive-compatible metadata store.
  • Crawlers. Auto-discover schemas из S3.
  • Jobs. PySpark / Python shell. Serverless execution.
  • DataBrew. Visual data preparation.

Pricing. DPU-hours.

Pros: integrated с AWS (S3, Athena, Redshift). Serverless — no infra.

Cons: vendor lock-in. PySpark only (no Scala).

GCP Dataflow

Apache Beam на managed runner.

Свойства:

  • Unified batch + streaming.
  • Auto-scaling.
  • SDK Java, Python, Go.
  • Beam — portable между runners (Dataflow, Spark, Flink).

Hot для streaming в GCP.

Azure Data Factory

Visual ETL designer + code.

Свойства:

  • Drag-drop pipeline builder.
  • Mapping data flows (visual SSIS-style).
  • Code-based для complex.
  • Integration runtime — bridge cloud / on-prem.

В РФ практически не используется (Azure недоступен).

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Yandex DataTransfer

Managed CDC / replication в Yandex Cloud.

Свойства:

  • Sources: Postgres, MySQL, MongoDB, ClickHouse, Greenplum.
  • Targets: Yandex DWH stack (CH, GP), S3-compatible.
  • Snapshot + ongoing replication.
  • Schema migration.

Плюс Yandex MapReduce, Yandex DataProc (Spark managed).

Сравнение

AWS Glue Dataflow ADF Yandex
Тип ETL job Streaming + batch Visual ETL CDC / replication
Cloud AWS GCP Azure Yandex
Available в РФ Limited Limited No Yes
Open standards Spark API Apache Beam Some Postgres-compat

В РФ: Yandex DataTransfer + Airflow + Spark на DataProc — common stack.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации AWS / GCP / Yandex Cloud.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.