Data Mesh на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

Data Mesh — modern paradigm для крупных орг с многими дата-командами. На собесе DE: «отличие от lake», «зачем domain ownership», «трудности внедрения».

Идея Data Mesh

Zhamak Dehghani (2019). Альтернатива монолитному centralized DWH / data lake.

Проблема. В большой компании:

  • Centralized data team — bottleneck.
  • Data engineers не знают domain.
  • Domain teams не имеют control.
  • Data products не могут scale-out.

Решение. Decentralize ownership: каждая бизнес-domain владеет своими data products.

4 принципа

  1. Domain-oriented decentralized data ownership and architecture. Domain (например, Catalog, Orders) владеет своими data.

  2. Data as a product. Команда обращается с datasets как с product: SLA, документация, версионирование, customer support.

  3. Self-serve data infrastructure as a platform. Centralized platform team предоставляет tooling (Spark cluster, dbt, lake storage), но не делает sample data products.

  4. Federated computational governance. Стандарты и правила (security, lineage, schemas) согласованы централизованно, выполняются автоматически.

Data product

Каждая domain выпускает один или несколько data products.

Свойства data product:

  • Discoverable (через каталог).
  • Addressable (стандартный URI).
  • Trustworthy (SLA, тесты).
  • Self-describing (schemas, docs).
  • Interoperable (стандартные формы).
  • Secure (authorization).

В терминах: «Customer team предоставляет data product customer_360 — Iceberg-таблица в lake с SLA 99.9%».

Domain ownership

Каждая domain команда:

  • Имеет своего data engineer / analytics engineer.
  • Управляет своими data products.
  • Несёт ответственность за качество.

Не "central data team делает за всех", а "domain team владеет".

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Self-serve platform

Чтобы domain teams могли работать без центрального бутылочного горлышка — platform team даёт:

  • Storage (lake / lakehouse).
  • Compute (Spark / dbt cluster).
  • Catalog (DataHub / Unity).
  • CI / CD для data pipelines.
  • Monitoring / alerting.

Domain pипки используют platform self-service — не пишут заявку «деплойте Airflow».

Federated governance

Без губернанса — chaos. Mesh fixes через:

  • Стандарты (data contracts, schema registry).
  • Auto-enforcement (CI checks, lineage).
  • Cross-domain forum для решений.

Когда подходит, когда нет

Подходит:

  • 100+ data engineers / analysts.
  • Многодоменная business (10+ domains).
  • Existing централизованная команда — bottleneck.
  • Зрелая инфра.

Не подходит:

  • < 20 человек в data — overkill.
  • Простой business с 1-2 doменами.
  • Без platform team и self-serve tooling.
  • Без Sponsor topdown.

Связанные темы

FAQ

Data Mesh заменит data lake?

Нет — это разные понятия. Lake — storage layer. Mesh — organizational + architectural pattern. Lake может быть частью mesh (как backbone for products).

Это официальная информация?

Нет. Статья основана на работах Dehghani («Data Mesh: Delivering Data-Driven Value at Scale» 2022).


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.