Data Mesh на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Data Mesh — modern paradigm для крупных орг с многими дата-командами. На собесе DE: «отличие от lake», «зачем domain ownership», «трудности внедрения».
Идея Data Mesh
Zhamak Dehghani (2019). Альтернатива монолитному centralized DWH / data lake.
Проблема. В большой компании:
- Centralized data team — bottleneck.
- Data engineers не знают domain.
- Domain teams не имеют control.
- Data products не могут scale-out.
Решение. Decentralize ownership: каждая бизнес-domain владеет своими data products.
4 принципа
Domain-oriented decentralized data ownership and architecture. Domain (например, Catalog, Orders) владеет своими data.
Data as a product. Команда обращается с datasets как с product: SLA, документация, версионирование, customer support.
Self-serve data infrastructure as a platform. Centralized platform team предоставляет tooling (Spark cluster, dbt, lake storage), но не делает sample data products.
Federated computational governance. Стандарты и правила (security, lineage, schemas) согласованы централизованно, выполняются автоматически.
Data product
Каждая domain выпускает один или несколько data products.
Свойства data product:
- Discoverable (через каталог).
- Addressable (стандартный URI).
- Trustworthy (SLA, тесты).
- Self-describing (schemas, docs).
- Interoperable (стандартные формы).
- Secure (authorization).
В терминах: «Customer team предоставляет data product customer_360 — Iceberg-таблица в lake с SLA 99.9%».
Domain ownership
Каждая domain команда:
- Имеет своего data engineer / analytics engineer.
- Управляет своими data products.
- Несёт ответственность за качество.
Не "central data team делает за всех", а "domain team владеет".
Self-serve platform
Чтобы domain teams могли работать без центрального бутылочного горлышка — platform team даёт:
- Storage (lake / lakehouse).
- Compute (Spark / dbt cluster).
- Catalog (DataHub / Unity).
- CI / CD для data pipelines.
- Monitoring / alerting.
Domain pипки используют platform self-service — не пишут заявку «деплойте Airflow».
Federated governance
Без губернанса — chaos. Mesh fixes через:
- Стандарты (data contracts, schema registry).
- Auto-enforcement (CI checks, lineage).
- Cross-domain forum для решений.
Когда подходит, когда нет
Подходит:
- 100+ data engineers / analysts.
- Многодоменная business (10+ domains).
- Existing централизованная команда — bottleneck.
- Зрелая инфра.
Не подходит:
- < 20 человек в data — overkill.
- Простой business с 1-2 doменами.
- Без platform team и self-serve tooling.
- Без Sponsor topdown.
Связанные темы
- Медальон-архитектура для DE
- Lakehouse Iceberg Delta для DE
- Data lineage для DE
- ETL vs ELT для DE
- Подготовка к собесу Data Engineer
FAQ
Data Mesh заменит data lake?
Нет — это разные понятия. Lake — storage layer. Mesh — organizational + architectural pattern. Lake может быть частью mesh (как backbone for products).
Это официальная информация?
Нет. Статья основана на работах Dehghani («Data Mesh: Delivering Data-Driven Value at Scale» 2022).
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.