Cloud-стек на собеседовании Data Engineer

Зачем cloud на собесе DE

В 2026 даже крупные российские компании комбинируют on-premise и облако. Yandex Cloud, VK Cloud, MTS Cloud, SberCloud — основные публичные облака. Многие команды строят data-стек на managed-сервисах: managed Postgres, managed ClickHouse, object storage S3-like.

На собесе Data Engineer cloud спрашивают через сценарии: «как построишь DWH в Yandex Cloud», «сравни managed ClickHouse vs self-hosted». Senior DE должен понимать trade-off cloud vs on-prem, cost optimization, security в облаке.

Главные категории cloud-сервисов для DE

1. Object storage (S3-like):

  • Yandex Object Storage, VK Cloud S3, AWS S3
  • Хранение raw данных, файлов, бэкапов
  • Tiers: hot / cool / cold (cost-effective для архива)

2. Managed DWH:

  • Snowflake (мировой стандарт, в России не работает legally)
  • BigQuery (Google)
  • Yandex Managed для ClickHouse
  • Yandex Managed для Greenplum
  • VK Cloud Managed Postgres / ClickHouse

3. Managed streaming:

  • Yandex Data Streams (Kinesis-like)
  • VK Cloud Kafka
  • Self-hosted Kafka в Kubernetes

4. ETL / Orchestration:

  • Yandex Managed Airflow
  • AWS MWAA (Managed Workflows for Airflow)
  • Dagster Cloud
  • Astronomer (managed Airflow vendor)

5. Streaming compute:

  • Apache Flink на K8s
  • Spark Structured Streaming

6. Lakehouse:

  • Iceberg / Delta / Hudi поверх S3
  • Trino / Spark для query

Yandex Cloud стек

Самое распространённое российское облако для data.

Storage:

  • Object Storage — S3-compatible API
  • Managed PostgreSQL — для OLTP / metadata
  • Managed ClickHouse — для OLAP
  • Managed Greenplum — для MPP DWH
  • YDB — distributed serverless DB

Compute / ETL:

  • Managed Airflow — orchestration
  • Managed Apache Spark — для big batch
  • DataLens — BI с native интеграцией
  • DataTransfer — managed CDC / replication

Streaming:

  • Data Streams — Kinesis-аналог
  • Managed Kafka

VK Cloud / SberCloud

Похожий стек, разные акценты:

VK Cloud:

  • Managed Postgres / ClickHouse / Kafka
  • S3-совместимое хранилище
  • ВкусВилл, Магнит и др. используют

SberCloud:

  • Cloud.ru — публичное облако Сбера
  • Managed Postgres, ClickHouse
  • Интеграции с SberAI, GigaChat

Object storage паттерны

Bronze / Silver / Gold (Medallion):

  • Bronze — raw данные as-is из источника
  • Silver — очищенные, нормализованные, типизированные
  • Gold — business-ready, mart, dimensional

В S3-like хранилище: s3://lake/bronze/, s3://lake/silver/, s3://lake/gold/.

Partitioning:

  • s3://lake/raw/orders/year=2026/month=05/day=13/
  • Hive-style partitioning читается Spark / Trino эффективно
  • Compaction: small files → big files для оптимизации

Compression:

  • Parquet (columnar, default)
  • Snappy (fast) / ZSTD (smaller)
  • Avoid: CSV, JSON для больших данных

Cost optimization

Storage:

  • Lifecycle policies: hot → cool → cold tiers
  • Compression обязательна
  • Compact small files (Spark coalesce)

Compute:

  • Spot / preemptible instances для batch
  • Auto-scaling для stream workloads
  • Right-sizing: managed Postgres XL → Medium если CPU 20%

Network:

  • Cross-region transfer дорогой → keep compute и storage в одной зоне
  • VPC endpoints вместо public internet

Query:

  • Partition pruning, columnar formats
  • Result caching
  • Reserved capacity для предсказуемых workloads

Security

Encryption:

  • At rest: KMS-managed keys
  • In transit: TLS 1.2+

Access control:

  • IAM roles, не credentials в коде
  • Bucket policies, ACL
  • Network isolation: private endpoints

PII / 152-ФЗ:

  • Маскирование на load
  • Tokenization для sensitive (PCI)
  • Audit logs (CloudTrail / Cloud Audit Logs)

Lakehouse и Iceberg

Современная архитектура: ACID-таблицы поверх S3.

Apache Iceberg:

  • Table format поверх Parquet / ORC
  • Schema evolution, time travel, hidden partitioning
  • Поддерживается Spark, Trino, Snowflake, Flink

Delta Lake (Databricks):

  • Аналогичный концепт
  • В России менее распространён (Databricks недоступен)

Apache Hudi:

  • Upsert на S3
  • Хорош для CDC-into-lake

Когда lakehouse:

  • Многоформатные данные (table + ML features + raw)
  • Need для time travel и schema evolution
  • Cost-effective storage (S3 в 5-10x дешевле DWH)

Типичные вопросы

«Yandex Managed ClickHouse vs self-hosted?»

Managed: автоматизация, меньше ops-нагрузки, встроенный мониторинг. Self-hosted: больше control, ниже cost на большом масштабе, кастомные сборки. Стандарт для startup-early stage — managed, для enterprise — гибрид.

«Как организовать data lake в Yandex Object Storage?»

Bronze / Silver / Gold layers. Hive-style partitioning по дате. Parquet + Snappy. dbt над Trino / Spark для трансформаций.

«Кост-оптимизация для cloud DWH?»

  1. Reserved capacity для baseline.
  2. Auto-scaling для bursts.
  3. Compression + partition pruning.
  4. Materialized views для частых queries.
  5. Cold tier для исторических данных.

«Spot instances для production?»

Только для batch / stateless workloads. Streaming compute с stateful operators плохо переносит preemption. Альтернатива: mixed instance fleet.

Частые ошибки

  • Public bucket с PII. Misconfiguration — главный источник cloud-breach
  • Cross-region traffic не учитывается. Бюджет улетает в network costs
  • Small files без compaction. Performance degradation на больших scans
  • CSV / JSON в production. Parquet обязателен для analytics workloads
  • Без cost monitoring. Расходы вышли из-под контроля → бюджет cut → миграция назад в on-prem

FAQ

AWS опыт ценится в РФ?

Да, концепции универсальны. Многие сервисы Yandex / VK Cloud — аналоги AWS. Перекладывается легко.

S3 или DWH для analytics?

Гибрид: S3 для raw + lakehouse query через Trino / Spark. DWH (ClickHouse / Greenplum) для BI с low-latency. Не «или», а «и».

Cloud для startup или enterprise?

Startup — yes, scalability + low ops cost. Enterprise — гибрид: критичные workloads on-prem, новые проекты в cloud.

Iceberg в production?

Зрелый. Netflix, Apple, Stripe — все на Iceberg. В российских командах внедряется (Ozon, ВкусВилл).

Yandex Cloud vs VK Cloud для DE?

Yandex более зрелый по managed-сервисам, лучше документация. VK Cloud догоняет, иногда дешевле. Для production оба подходят.

Смотрите также