Apache Atlas на собеседовании Data Engineer

Проверь себя · 1/3разбор после ответа
Нужно построить график регистраций по часам из таблицы пользователей со столбцом created_at типа timestamp. Какой бакет лучше использовать?

Что такое Atlas

Apache Hadoop ecosystem governance.

Track entities (tables, columns), relationships, lineage. Classification (PII tags).

Integrates Hive, Hadoop, Spark, Kafka.

Type system

Define entity types и attributes.

Type: hive_table
  Attributes: name, owner, created_at, columns[]
  Relationships: derived_from, used_by, ...

Custom types — model business concepts.

Lineage

Auto-track data flow.

SourceTable → Hive job → DerivedTable → Spark job → AggregatedTable

Visual graph. Ipdated automatically когда jobs run (через hooks).

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Classification

Tag entities с classifications.

Tag PII: User.email, User.phone.
Tag Sensitive: Salary.amount.
Tag GDPR: Customer.address.

Search / filter — «show all PII tables».

Integrates Ranger для policy enforcement (access control based на tags).

Vs DataHub

Atlas DataHub
Origin Hadoop ecosystem LinkedIn
Modern adoption Declining Growing
Cloud-native Less Yes
UX Older Modern
Connectors Hadoop-focused Broader

В new projects — DataHub / OpenMetadata. Atlas — Hadoop legacy environments.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации Apache Atlas.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.