Databricks на собеседовании Data Engineer

Проверь себя · 1/3разбор после ответа
Вы сортируете товары по величине скидки discount по убыванию. Поле discount может быть NULL (скидки нет). Чтобы товары без скидки всегда оказывались внизу независимо от настроек СУБД, какой вариант сортировки выбрать?

Что такое Databricks

Founders Spark. Cloud platform. Spark + Delta + ML + governance.

Available на AWS / Azure / GCP. В РФ через прокси / Yandex Cloud (limited).

Lakehouse

Combine lake storage + warehouse SQL.

Bronze (raw) → Silver (cleansed) → Gold (analytics) — все в Delta tables на S3.
SQL queries via Databricks SQL.
ML training via Spark.

ACID на storage layer = transactional analytics.

Unity Catalog

Modern data catalog. Cross-workspace governance.

catalog.schema.table

Features:

  • Centralized access control.
  • Lineage built-in.
  • Data discovery.
  • ML model registry.

Replaces fragmented ACLs / metastores.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Delta Lake

Open source storage layer. ACID, time travel, schema evolution.

CREATE TABLE events USING delta LOCATION 's3://...'

OPTIMIZE, VACUUM, Z-ORDER — Delta-specific ops.

DBSQL

Databricks SQL. Photon engine. Optimized для interactive queries.

Compete с Snowflake / BigQuery, на Lakehouse data.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации Databricks.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.