Cloud-стек на собеседовании Data Engineer

Проверь себя · 1/3разбор после ответа

Нужно построить отчёт: по каждому продукту и каждому дню месяца — сумма продаж, включая дни с нулевыми продажами. Как сформировать каркас из всех пар дата–продукт?

Зачем cloud на собесе DE

В 2026 даже крупные российские компании комбинируют on-premise и облако. Yandex Cloud, VK Cloud, MTS Cloud, SberCloud — основные публичные облака. Многие команды строят data-стек на managed-сервисах: managed Postgres, managed ClickHouse, object storage S3-like.

На собесе Data Engineer cloud спрашивают через сценарии: «как построишь DWH в Yandex Cloud», «сравни managed ClickHouse vs self-hosted». Senior DE должен понимать trade-off cloud vs on-prem, cost optimization, security в облаке.

Главные категории cloud-сервисов для DE

1. Object storage (S3-like):

Yandex Object Storage, VK Cloud S3, AWS S3
Хранение raw данных, файлов, бэкапов
Tiers: hot / cool / cold (cost-effective для архива)

2. Managed DWH:

Snowflake (мировой стандарт, в России не работает legally)
BigQuery (Google)
Yandex Managed для ClickHouse
Yandex Managed для Greenplum
VK Cloud Managed Postgres / ClickHouse

3. Managed streaming:

Yandex Data Streams (Kinesis-like)
VK Cloud Kafka
Self-hosted Kafka в Kubernetes

4. ETL / Orchestration:

Yandex Managed Airflow
AWS MWAA (Managed Workflows for Airflow)
Dagster Cloud
Astronomer (managed Airflow vendor)

5. Streaming compute:

Apache Flink на K8s
Spark Structured Streaming

6. Lakehouse:

Iceberg / Delta / Hudi поверх S3
Trino / Spark для query

Yandex Cloud стек

Самое распространённое российское облако для data.

Storage:

Object Storage — S3-compatible API
Managed PostgreSQL — для OLTP / metadata
Managed ClickHouse — для OLAP
Managed Greenplum — для MPP DWH
YDB — distributed serverless DB

Compute / ETL:

Managed Airflow — orchestration
Managed Apache Spark — для big batch
DataLens — BI с native интеграцией
DataTransfer — managed CDC / replication

Streaming:

Data Streams — Kinesis-аналог
Managed Kafka

VK Cloud / SberCloud

Похожий стек, разные акценты:

VK Cloud:

Managed Postgres / ClickHouse / Kafka
S3-совместимое хранилище
ВкусВилл, Магнит и др. используют

SberCloud:

Cloud.ru — публичное облако Сбера
Managed Postgres, ClickHouse
Интеграции с SberAI, GigaChat

Object storage паттерны

Bronze / Silver / Gold (Medallion):

Bronze — raw данные as-is из источника
Silver — очищенные, нормализованные, типизированные
Gold — business-ready, mart, dimensional

В S3-like хранилище: s3://lake/bronze/, s3://lake/silver/, s3://lake/gold/.

Partitioning:

s3://lake/raw/orders/year=2026/month=05/day=13/
Hive-style partitioning читается Spark / Trino эффективно
Compaction: small files → big files для оптимизации

Compression:

Parquet (columnar, default)
Snappy (fast) / ZSTD (smaller)
Avoid: CSV, JSON для больших данных

Cost optimization

Storage:

Lifecycle policies: hot → cool → cold tiers
Compression обязательна
Compact small files (Spark coalesce)

Compute:

Spot / preemptible instances для batch
Auto-scaling для stream workloads
Right-sizing: managed Postgres XL → Medium если CPU 20%

Network:

Cross-region transfer дорогой → keep compute и storage в одной зоне
VPC endpoints вместо public internet

Query:

Partition pruning, columnar formats
Result caching
Reserved capacity для предсказуемых workloads

Security

Encryption:

At rest: KMS-managed keys
In transit: TLS 1.2+

Access control:

IAM roles, не credentials в коде
Bucket policies, ACL
Network isolation: private endpoints

PII / 152-ФЗ:

Маскирование на load
Tokenization для sensitive (PCI)
Audit logs (CloudTrail / Cloud Audit Logs)

Lakehouse и Iceberg

Современная архитектура: ACID-таблицы поверх S3.

Apache Iceberg:

Table format поверх Parquet / ORC
Schema evolution, time travel, hidden partitioning
Поддерживается Spark, Trino, Snowflake, Flink

Delta Lake (Databricks):

Аналогичный концепт
В России менее распространён (Databricks недоступен)

Apache Hudi:

Upsert на S3
Хорош для CDC-into-lake

Когда lakehouse:

Многоформатные данные (table + ML features + raw)
Need для time travel и schema evolution
Cost-effective storage (S3 в 5-10x дешевле DWH)

Типичные вопросы

«Yandex Managed ClickHouse vs self-hosted?»

Managed: автоматизация, меньше ops-нагрузки, встроенный мониторинг. Self-hosted: больше control, ниже cost на большом масштабе, кастомные сборки. Стандарт для startup-early stage — managed, для enterprise — гибрид.

«Как организовать data lake в Yandex Object Storage?»

Bronze / Silver / Gold layers. Hive-style partitioning по дате. Parquet + Snappy. dbt над Trino / Spark для трансформаций.

«Кост-оптимизация для cloud DWH?»

Reserved capacity для baseline.
Auto-scaling для bursts.
Compression + partition pruning.
Materialized views для частых queries.
Cold tier для исторических данных.

«Spot instances для production?»

Только для batch / stateless workloads. Streaming compute с stateful operators плохо переносит preemption. Альтернатива: mixed instance fleet.

Частые ошибки

Public bucket с PII. Misconfiguration — главный источник cloud-breach
Cross-region traffic не учитывается. Бюджет улетает в network costs
Small files без compaction. Performance degradation на больших scans
CSV / JSON в production. Parquet обязателен для analytics workloads
Без cost monitoring. Расходы вышли из-под контроля → бюджет cut → миграция назад в on-prem

FAQ

AWS опыт ценится в РФ?

Да, концепции универсальны. Многие сервисы Yandex / VK Cloud — аналоги AWS. Перекладывается легко.

S3 или DWH для analytics?

Гибрид: S3 для raw + lakehouse query через Trino / Spark. DWH (ClickHouse / Greenplum) для BI с low-latency. Не «или», а «и».

Cloud для startup или enterprise?

Startup — yes, scalability + low ops cost. Enterprise — гибрид: критичные workloads on-prem, новые проекты в cloud.

Iceberg в production?

Зрелый. Netflix, Apple, Stripe — все на Iceberg. В российских командах внедряется (Ozon, ВкусВилл).

Yandex Cloud vs VK Cloud для DE?

Yandex более зрелый по managed-сервисам, лучше документация. VK Cloud догоняет, иногда дешевле. Для production оба подходят.

Смотрите также

Тренировать DE в Telegram