Apache Drill на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Что такое Drill

SQL поверх many sources — files, NoSQL, databases.

SELECT * FROM dfs.`/data/file.parquet` WHERE col > 100;
SELECT * FROM mongo.users.profiles;
SELECT * FROM hbase.events;

Inspired by Google Dremel. Apache project с 2014.

Schema-free

Drill discovers schema на чтении. Не need DDL upfront.

SELECT * FROM dfs.`/data/file.json`;
-- Drill infers schema от JSON structure.

Pros: quick exploratory.

Cons: type inference ошибки. Performance hits без declared schema.

Drillbit cluster

Drillbits — distributed query engines. Coordinate через ZooKeeper.

Each query — divided into fragments, executed parallel.

Similar к Trino architecture.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Vs Trino / Presto

Drill — niche. Trino dominates federated SQL space.

Drill stronger:

  • Schema-free exploration (semi-structured data).
  • Less popular cleaner code.

Trino stronger:

  • Larger ecosystem.
  • Better connectors.
  • More active development.

В большинстве случаев — Trino preferred.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации Apache Drill.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.