Databricks на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Что такое Databricks
Founders Spark. Cloud platform. Spark + Delta + ML + governance.
Available на AWS / Azure / GCP. В РФ через прокси / Yandex Cloud (limited).
Lakehouse
Combine lake storage + warehouse SQL.
Bronze (raw) → Silver (cleansed) → Gold (analytics) — все в Delta tables на S3.
SQL queries via Databricks SQL.
ML training via Spark.ACID на storage layer = transactional analytics.
Unity Catalog
Modern data catalog. Cross-workspace governance.
catalog.schema.tableFeatures:
- Centralized access control.
- Lineage built-in.
- Data discovery.
- ML model registry.
Replaces fragmented ACLs / metastores.
Delta Lake
Open source storage layer. ACID, time travel, schema evolution.
CREATE TABLE events USING delta LOCATION 's3://...'OPTIMIZE, VACUUM, Z-ORDER — Delta-specific ops.
DBSQL
Databricks SQL. Photon engine. Optimized для interactive queries.
Compete с Snowflake / BigQuery, на Lakehouse data.
Связанные темы
- Lakehouse Iceberg Delta для DE
- Spark RDD vs DataFrame для DE
- Snowflake vs BigQuery для DE
- Медальон-архитектура для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации Databricks.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.