Apache Drill на собеседовании Data Engineer
Проверь себя · 1/3разбор после ответа
В
EXPLAIN вашего отчёта видно, что выполняется Sort по created_at на очень большом наборе строк. Какое действие чаще всего помогает уменьшить работу сортировки?Что такое Drill
SQL поверх many sources — files, NoSQL, databases.
SELECT * FROM dfs.`/data/file.parquet` WHERE col > 100;
SELECT * FROM mongo.users.profiles;
SELECT * FROM hbase.events;Inspired by Google Dremel. Apache project с 2014.
Schema-free
Drill discovers schema на чтении. Не need DDL upfront.
SELECT * FROM dfs.`/data/file.json`;
-- Drill infers schema от JSON structure.Pros: quick exploratory.
Cons: type inference ошибки. Performance hits без declared schema.
Drillbit cluster
Drillbits — distributed query engines. Coordinate через ZooKeeper.
Each query — divided into fragments, executed parallel.
Similar к Trino architecture.
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Vs Trino / Presto
Drill — niche. Trino dominates federated SQL space.
Drill stronger:
- Schema-free exploration (semi-structured data).
- Less popular cleaner code.
Trino stronger:
- Larger ecosystem.
- Better connectors.
- More active development.
В большинстве случаев — Trino preferred.
Связанные темы
- Trino и Presto для DE
- Trino federation для DE
- Hive Metastore для DE
- Athena для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации Apache Drill.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.