Databricks на собеседовании Data Engineer
Проверь себя · 1/3разбор после ответа
Вы сортируете товары по величине скидки
discount по убыванию. Поле discount может быть NULL (скидки нет). Чтобы товары без скидки всегда оказывались внизу независимо от настроек СУБД, какой вариант сортировки выбрать?Что такое Databricks
Founders Spark. Cloud platform. Spark + Delta + ML + governance.
Available на AWS / Azure / GCP. В РФ через прокси / Yandex Cloud (limited).
Lakehouse
Combine lake storage + warehouse SQL.
Bronze (raw) → Silver (cleansed) → Gold (analytics) — все в Delta tables на S3.
SQL queries via Databricks SQL.
ML training via Spark.ACID на storage layer = transactional analytics.
Unity Catalog
Modern data catalog. Cross-workspace governance.
catalog.schema.tableFeatures:
- Centralized access control.
- Lineage built-in.
- Data discovery.
- ML model registry.
Replaces fragmented ACLs / metastores.
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Delta Lake
Open source storage layer. ACID, time travel, schema evolution.
CREATE TABLE events USING delta LOCATION 's3://...'OPTIMIZE, VACUUM, Z-ORDER — Delta-specific ops.
DBSQL
Databricks SQL. Photon engine. Optimized для interactive queries.
Compete с Snowflake / BigQuery, на Lakehouse data.
Связанные темы
- Lakehouse Iceberg Delta для DE
- Spark RDD vs DataFrame для DE
- Snowflake vs BigQuery для DE
- Медальон-архитектура для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации Databricks.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.