7 мая 2026 г.·3 мин чтения

Data Mesh на собеседовании Data Engineer

Q: Data Mesh заменит data lake?

Нет — это разные понятия. Lake — storage layer. Mesh — organizational + architectural pattern. Lake может быть частью mesh (как backbone for products).

Q: Это официальная информация?

Нет. Статья основана на работах Dehghani («Data Mesh: Delivering Data-Driven Value at Scale» 2022). --- Тренируйте Data Engineering — [откройте тренажёр](https://t.me/kariernik_bot/app?startapp=web_blog_data-mesh-na-sobesedovanii-de) с 1500+ вопросами для собесов.

Проверь себя · 1/3разбор после ответа

Нужно построить отчёт: по каждому продукту и каждому дню месяца — сумма продаж, включая дни с нулевыми продажами. Как сформировать каркас из всех пар дата–продукт?

Содержание:

Зачем разбирать на собесе
Идея Data Mesh
4 принципа
Data product
Domain ownership
Self-serve platform
Federated governance
Когда подходит, когда нет
Связанные темы
FAQ

Зачем разбирать на собесе

Data Mesh — modern paradigm для крупных орг с многими дата-командами. На собесе DE: «отличие от lake», «зачем domain ownership», «трудности внедрения».

Идея Data Mesh

Zhamak Dehghani (2019). Альтернатива монолитному centralized DWH / data lake.

Проблема. В большой компании:

Centralized data team — bottleneck.
Data engineers не знают domain.
Domain teams не имеют control.
Data products не могут scale-out.

Решение. Decentralize ownership: каждая бизнес-domain владеет своими data products.

4 принципа

Domain-oriented decentralized data ownership and architecture. Domain (например, Catalog, Orders) владеет своими data.
Data as a product. Команда обращается с datasets как с product: SLA, документация, версионирование, customer support.
Self-serve data infrastructure as a platform. Centralized platform team предоставляет tooling (Spark cluster, dbt, lake storage), но не делает sample data products.
Federated computational governance. Стандарты и правила (security, lineage, schemas) согласованы централизованно, выполняются автоматически.

Data product

Каждая domain выпускает один или несколько data products.

Свойства data product:

Discoverable (через каталог).
Addressable (стандартный URI).
Trustworthy (SLA, тесты).
Self-describing (schemas, docs).
Interoperable (стандартные формы).
Secure (authorization).

В терминах: «Customer team предоставляет data product customer_360 — Iceberg-таблица в lake с SLA 99.9%».

Domain ownership

Каждая domain команда:

Имеет своего data engineer / analytics engineer.
Управляет своими data products.
Несёт ответственность за качество.

Не "central data team делает за всех", а "domain team владеет".

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Self-serve platform

Чтобы domain teams могли работать без центрального бутылочного горлышка — platform team даёт:

Storage (lake / lakehouse).
Compute (Spark / dbt cluster).
Catalog (DataHub / Unity).
CI / CD для data pipelines.
Monitoring / alerting.

Domain pипки используют platform self-service — не пишут заявку «деплойте Airflow».

Federated governance

Без губернанса — chaos. Mesh fixes через:

Стандарты (data contracts, schema registry).
Auto-enforcement (CI checks, lineage).
Cross-domain forum для решений.

Когда подходит, когда нет

Подходит:

100+ data engineers / analysts.
Многодоменная business (10+ domains).
Existing централизованная команда — bottleneck.
Зрелая инфра.

Не подходит:

< 20 человек в data — overkill.
Простой business с 1-2 doменами.
Без platform team и self-serve tooling.
Без Sponsor topdown.

Связанные темы

FAQ

Data Mesh заменит data lake?