Apache Drill на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Что такое Drill
SQL поверх many sources — files, NoSQL, databases.
SELECT * FROM dfs.`/data/file.parquet` WHERE col > 100;
SELECT * FROM mongo.users.profiles;
SELECT * FROM hbase.events;Inspired by Google Dremel. Apache project с 2014.
Schema-free
Drill discovers schema на чтении. Не need DDL upfront.
SELECT * FROM dfs.`/data/file.json`;
-- Drill infers schema от JSON structure.Pros: quick exploratory.
Cons: type inference ошибки. Performance hits без declared schema.
Drillbit cluster
Drillbits — distributed query engines. Coordinate через ZooKeeper.
Each query — divided into fragments, executed parallel.
Similar к Trino architecture.
Vs Trino / Presto
Drill — niche. Trino dominates federated SQL space.
Drill stronger:
- Schema-free exploration (semi-structured data).
- Less popular cleaner code.
Trino stronger:
- Larger ecosystem.
- Better connectors.
- More active development.
В большинстве случаев — Trino preferred.
Связанные темы
- Trino и Presto для DE
- Trino federation для DE
- Hive Metastore для DE
- Athena для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации Apache Drill.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.