Cloud-стек на собеседовании Data Engineer
Зачем cloud на собесе DE
В 2026 даже крупные российские компании комбинируют on-premise и облако. Yandex Cloud, VK Cloud, MTS Cloud, SberCloud — основные публичные облака. Многие команды строят data-стек на managed-сервисах: managed Postgres, managed ClickHouse, object storage S3-like.
На собесе Data Engineer cloud спрашивают через сценарии: «как построишь DWH в Yandex Cloud», «сравни managed ClickHouse vs self-hosted». Senior DE должен понимать trade-off cloud vs on-prem, cost optimization, security в облаке.
Главные категории cloud-сервисов для DE
1. Object storage (S3-like):
- Yandex Object Storage, VK Cloud S3, AWS S3
- Хранение raw данных, файлов, бэкапов
- Tiers: hot / cool / cold (cost-effective для архива)
2. Managed DWH:
- Snowflake (мировой стандарт, в России не работает legally)
- BigQuery (Google)
- Yandex Managed для ClickHouse
- Yandex Managed для Greenplum
- VK Cloud Managed Postgres / ClickHouse
3. Managed streaming:
- Yandex Data Streams (Kinesis-like)
- VK Cloud Kafka
- Self-hosted Kafka в Kubernetes
4. ETL / Orchestration:
- Yandex Managed Airflow
- AWS MWAA (Managed Workflows for Airflow)
- Dagster Cloud
- Astronomer (managed Airflow vendor)
5. Streaming compute:
- Apache Flink на K8s
- Spark Structured Streaming
6. Lakehouse:
- Iceberg / Delta / Hudi поверх S3
- Trino / Spark для query
Yandex Cloud стек
Самое распространённое российское облако для data.
Storage:
- Object Storage — S3-compatible API
- Managed PostgreSQL — для OLTP / metadata
- Managed ClickHouse — для OLAP
- Managed Greenplum — для MPP DWH
- YDB — distributed serverless DB
Compute / ETL:
- Managed Airflow — orchestration
- Managed Apache Spark — для big batch
- DataLens — BI с native интеграцией
- DataTransfer — managed CDC / replication
Streaming:
- Data Streams — Kinesis-аналог
- Managed Kafka
VK Cloud / SberCloud
Похожий стек, разные акценты:
VK Cloud:
- Managed Postgres / ClickHouse / Kafka
- S3-совместимое хранилище
- ВкусВилл, Магнит и др. используют
SberCloud:
- Cloud.ru — публичное облако Сбера
- Managed Postgres, ClickHouse
- Интеграции с SberAI, GigaChat
Object storage паттерны
Bronze / Silver / Gold (Medallion):
- Bronze — raw данные as-is из источника
- Silver — очищенные, нормализованные, типизированные
- Gold — business-ready, mart, dimensional
В S3-like хранилище: s3://lake/bronze/, s3://lake/silver/, s3://lake/gold/.
Partitioning:
s3://lake/raw/orders/year=2026/month=05/day=13/- Hive-style partitioning читается Spark / Trino эффективно
- Compaction: small files → big files для оптимизации
Compression:
- Parquet (columnar, default)
- Snappy (fast) / ZSTD (smaller)
- Avoid: CSV, JSON для больших данных
Cost optimization
Storage:
- Lifecycle policies: hot → cool → cold tiers
- Compression обязательна
- Compact small files (Spark
coalesce)
Compute:
- Spot / preemptible instances для batch
- Auto-scaling для stream workloads
- Right-sizing: managed Postgres XL → Medium если CPU 20%
Network:
- Cross-region transfer дорогой → keep compute и storage в одной зоне
- VPC endpoints вместо public internet
Query:
- Partition pruning, columnar formats
- Result caching
- Reserved capacity для предсказуемых workloads
Security
Encryption:
- At rest: KMS-managed keys
- In transit: TLS 1.2+
Access control:
- IAM roles, не credentials в коде
- Bucket policies, ACL
- Network isolation: private endpoints
PII / 152-ФЗ:
- Маскирование на load
- Tokenization для sensitive (PCI)
- Audit logs (CloudTrail / Cloud Audit Logs)
Lakehouse и Iceberg
Современная архитектура: ACID-таблицы поверх S3.
Apache Iceberg:
- Table format поверх Parquet / ORC
- Schema evolution, time travel, hidden partitioning
- Поддерживается Spark, Trino, Snowflake, Flink
Delta Lake (Databricks):
- Аналогичный концепт
- В России менее распространён (Databricks недоступен)
Apache Hudi:
- Upsert на S3
- Хорош для CDC-into-lake
Когда lakehouse:
- Многоформатные данные (table + ML features + raw)
- Need для time travel и schema evolution
- Cost-effective storage (S3 в 5-10x дешевле DWH)
Типичные вопросы
«Yandex Managed ClickHouse vs self-hosted?»
Managed: автоматизация, меньше ops-нагрузки, встроенный мониторинг. Self-hosted: больше control, ниже cost на большом масштабе, кастомные сборки. Стандарт для startup-early stage — managed, для enterprise — гибрид.
«Как организовать data lake в Yandex Object Storage?»
Bronze / Silver / Gold layers. Hive-style partitioning по дате. Parquet + Snappy. dbt над Trino / Spark для трансформаций.
«Кост-оптимизация для cloud DWH?»
- Reserved capacity для baseline.
- Auto-scaling для bursts.
- Compression + partition pruning.
- Materialized views для частых queries.
- Cold tier для исторических данных.
«Spot instances для production?»
Только для batch / stateless workloads. Streaming compute с stateful operators плохо переносит preemption. Альтернатива: mixed instance fleet.
Частые ошибки
- Public bucket с PII. Misconfiguration — главный источник cloud-breach
- Cross-region traffic не учитывается. Бюджет улетает в network costs
- Small files без compaction. Performance degradation на больших scans
- CSV / JSON в production. Parquet обязателен для analytics workloads
- Без cost monitoring. Расходы вышли из-под контроля → бюджет cut → миграция назад в on-prem
FAQ
AWS опыт ценится в РФ?
Да, концепции универсальны. Многие сервисы Yandex / VK Cloud — аналоги AWS. Перекладывается легко.
S3 или DWH для analytics?
Гибрид: S3 для raw + lakehouse query через Trino / Spark. DWH (ClickHouse / Greenplum) для BI с low-latency. Не «или», а «и».
Cloud для startup или enterprise?
Startup — yes, scalability + low ops cost. Enterprise — гибрид: критичные workloads on-prem, новые проекты в cloud.
Iceberg в production?
Зрелый. Netflix, Apple, Stripe — все на Iceberg. В российских командах внедряется (Ozon, ВкусВилл).
Yandex Cloud vs VK Cloud для DE?
Yandex более зрелый по managed-сервисам, лучше документация. VK Cloud догоняет, иногда дешевле. Для production оба подходят.