Apache Atlas на собеседовании Data Engineer
Проверь себя · 1/3разбор после ответа
Нужно построить график регистраций по часам из таблицы пользователей со столбцом
created_at типа timestamp. Какой бакет лучше использовать?Что такое Atlas
Apache Hadoop ecosystem governance.
Track entities (tables, columns), relationships, lineage. Classification (PII tags).
Integrates Hive, Hadoop, Spark, Kafka.
Type system
Define entity types и attributes.
Type: hive_table
Attributes: name, owner, created_at, columns[]
Relationships: derived_from, used_by, ...Custom types — model business concepts.
Lineage
Auto-track data flow.
SourceTable → Hive job → DerivedTable → Spark job → AggregatedTableVisual graph. Ipdated automatically когда jobs run (через hooks).
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Classification
Tag entities с classifications.
Tag PII: User.email, User.phone.
Tag Sensitive: Salary.amount.
Tag GDPR: Customer.address.Search / filter — «show all PII tables».
Integrates Ranger для policy enforcement (access control based на tags).
Vs DataHub
| Atlas | DataHub | |
|---|---|---|
| Origin | Hadoop ecosystem | |
| Modern adoption | Declining | Growing |
| Cloud-native | Less | Yes |
| UX | Older | Modern |
| Connectors | Hadoop-focused | Broader |
В new projects — DataHub / OpenMetadata. Atlas — Hadoop legacy environments.
Связанные темы
- Data lineage для DE
- Hive Metastore для DE
- Hadoop и MapReduce для DE
- OpenLineage для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации Apache Atlas.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.