Apache Atlas на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Что такое Atlas
Apache Hadoop ecosystem governance.
Track entities (tables, columns), relationships, lineage. Classification (PII tags).
Integrates Hive, Hadoop, Spark, Kafka.
Type system
Define entity types и attributes.
Type: hive_table
Attributes: name, owner, created_at, columns[]
Relationships: derived_from, used_by, ...Custom types — model business concepts.
Lineage
Auto-track data flow.
SourceTable → Hive job → DerivedTable → Spark job → AggregatedTableVisual graph. Ipdated automatically когда jobs run (через hooks).
Classification
Tag entities с classifications.
Tag PII: User.email, User.phone.
Tag Sensitive: Salary.amount.
Tag GDPR: Customer.address.Search / filter — «show all PII tables».
Integrates Ranger для policy enforcement (access control based на tags).
Vs DataHub
| Atlas | DataHub | |
|---|---|---|
| Origin | Hadoop ecosystem | |
| Modern adoption | Declining | Growing |
| Cloud-native | Less | Yes |
| UX | Older | Modern |
| Connectors | Hadoop-focused | Broader |
В new projects — DataHub / OpenMetadata. Atlas — Hadoop legacy environments.
Связанные темы
- Data lineage для DE
- Hive Metastore для DE
- Hadoop и MapReduce для DE
- OpenLineage для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации Apache Atlas.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.