Databricks на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Что такое Databricks

Founders Spark. Cloud platform. Spark + Delta + ML + governance.

Available на AWS / Azure / GCP. В РФ через прокси / Yandex Cloud (limited).

Lakehouse

Combine lake storage + warehouse SQL.

Bronze (raw) → Silver (cleansed) → Gold (analytics) — все в Delta tables на S3.
SQL queries via Databricks SQL.
ML training via Spark.

ACID на storage layer = transactional analytics.

Unity Catalog

Modern data catalog. Cross-workspace governance.

catalog.schema.table

Features:

  • Centralized access control.
  • Lineage built-in.
  • Data discovery.
  • ML model registry.

Replaces fragmented ACLs / metastores.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Delta Lake

Open source storage layer. ACID, time travel, schema evolution.

CREATE TABLE events USING delta LOCATION 's3://...'

OPTIMIZE, VACUUM, Z-ORDER — Delta-specific ops.

DBSQL

Databricks SQL. Photon engine. Optimized для interactive queries.

Compete с Snowflake / BigQuery, на Lakehouse data.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации Databricks.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.