Apache Atlas на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Что такое Atlas

Apache Hadoop ecosystem governance.

Track entities (tables, columns), relationships, lineage. Classification (PII tags).

Integrates Hive, Hadoop, Spark, Kafka.

Type system

Define entity types и attributes.

Type: hive_table
  Attributes: name, owner, created_at, columns[]
  Relationships: derived_from, used_by, ...

Custom types — model business concepts.

Lineage

Auto-track data flow.

SourceTable → Hive job → DerivedTable → Spark job → AggregatedTable

Visual graph. Ipdated automatically когда jobs run (через hooks).

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Classification

Tag entities с classifications.

Tag PII: User.email, User.phone.
Tag Sensitive: Salary.amount.
Tag GDPR: Customer.address.

Search / filter — «show all PII tables».

Integrates Ranger для policy enforcement (access control based на tags).

Vs DataHub

Atlas DataHub
Origin Hadoop ecosystem LinkedIn
Modern adoption Declining Growing
Cloud-native Less Yes
UX Older Modern
Connectors Hadoop-focused Broader

В new projects — DataHub / OpenMetadata. Atlas — Hadoop legacy environments.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации Apache Atlas.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.