7 мая 2026 г.·2 мин чтения

Apache Hive на собеседовании Data Engineer

Q: Это официальная информация?

Нет. Статья основана на документации Apache Hive. --- Тренируйте Data Engineering — [откройте тренажёр](https://t.me/kariernik_bot/app?startapp=web_blog_hive-na-sobesedovanii-de) с 1500+ вопросами для собесов.

Проверь себя · 1/3разбор после ответа

В выводе EXPLAIN вы видите оценку cost=0.00..431.00. Какой вывод аналитик может сделать безопасно?

Содержание:

Зачем разбирать на собесе
Hive основы
Partitioning
Bucketing
File formats
Execution engines
Связанные темы
FAQ

Зачем разбирать на собесе

Hive — legacy, но всё ещё в production многих компаний. На собесе DE: «отличие от Spark SQL», «когда Hive».

Hive основы

SQL-like layer над HDFS / object storage. Translates HiveQL → MapReduce / Tez / Spark.

Components:

Hive Metastore — schema catalog.
HiveServer2 — JDBC-compatible.
CLI / Beeline — clients.

Use case. Big batch SQL queries на data lake. Не interactive.

Partitioning

Partitioning по directory structure.

CREATE TABLE events (
  user_id BIGINT,
  event_type STRING
) PARTITIONED BY (event_date STRING)
STORED AS PARQUET;

INSERT INTO events PARTITION (event_date='2026-05-07')
VALUES (1, 'click');

В HDFS:

/warehouse/events/event_date=2026-05-07/file.parquet

При query WHERE event_date='2026-05-07' — pruning, читает только relevant.

Bucketing

Hash-distribution внутри partition.

CREATE TABLE users (
  user_id BIGINT,
  name STRING
) CLUSTERED BY (user_id) INTO 32 BUCKETS;

Применение:

Sampling (TABLESAMPLE).
Optimized joins (bucketed map join).
Distribution для downstream Spark.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

File formats

Text / CSV. Не использовать в production.

Parquet. Default, columnar, compressed. Best для analytics.

ORC. Optimized Row Columnar — Hive-native. Cluster ACID транзакции. Лучшая интеграция с Hive.

Avro. Schema evolution. Часто для CDC.

В 2026: ORC внутри Hive экосистемы, Parquet в Spark / Iceberg экосистеме.

Execution engines

MapReduce (legacy). Slow, batch.

Tez. Faster MR. DAG-based. Стандарт для Hive в 2020+.

Spark. Hive-on-Spark.

В современных setup'ах — Hive часто replaced Trino (interactive) или Spark SQL (batch). Hive остаётся для legacy ETL.

Связанные темы

FAQ

Hive используется в 2026?

Скорее legacy / бережно поддерживаемое. Новые проекты — Spark / Trino / Iceberg.

Это официальная информация?

Нет. Статья основана на документации Apache Hive.

Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.