Yandex Cloud data services на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Object Storage

S3-compatible. Hot / Cold / Cold Archive tiers.

import boto3
s3 = boto3.client('s3', endpoint_url='https://storage.yandexcloud.net')

Tools (Spark, dbt) work с S3 API.

Managed ClickHouse

Managed CH cluster. Single-host или distributed (sharded + replicated).

Pros vs self-host:

  • Auto backups, monitoring.
  • Auto-failover.
  • Easy scaling.

Cons: vendor lock, limited config tuning.

В РФ — стандарт DWH replacement Snowflake / BigQuery.

Managed Greenplum

Managed GP. Поддержка Postgres-compatible MPP.

Use case: big enterprise needing transactions + analytics.

Часто Сбер / банки используют — replicated к Yandex Cloud.

DataTransfer

Managed CDC / replication.

Sources: Postgres, MySQL, MongoDB, Kafka, S3.

Targets: ClickHouse, Greenplum, Object Storage, Postgres.

Postgres OLTP → DataTransfer (CDC) → ClickHouse OLAP.

Real-time replication.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

DataProc

Managed Hadoop / Spark cluster.

Pros: Spark / Hive / HBase ready. Auto-scaling.

Cons: Spark compute сильно дороже на CH workload.

DataSphere

ML platform — JupyterLab, training infrastructure, deployment.

Notebook → train model on GPU → deploy as endpoint.

В РФ — alternative SageMaker / Vertex AI / Databricks.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации Yandex Cloud.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.