HDFS на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

HDFS архитектура

Hadoop Distributed File System. Distributed FS для big files на commodity hardware.

Properties:

  • Append-only (мостly).
  • Immutable files после close.
  • Optimized для large sequential reads.
  • Не подходит для many small files (NameNode bottleneck).

Blocks

Файлы разбиваются на blocks (default 128 MB).

big_file.parquet (1 GB)
  → block 1 (128 MB)
  → block 2 (128 MB)
  ...

Каждый block stored на multiple DataNodes (replication).

NameNode и DataNode

NameNode. Master. Stores metadata (file → blocks → DataNodes).

  • In-memory (RAM hungry).
  • Single point of failure (без HA setup).

DataNode. Worker. Stores actual block data.

  • Periodically reports блоки to NameNode.
  • Replication coordinated by NameNode.
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Replication

Default replication factor — 3.

Block A:
  Replica 1 — DataNode-1 (rack 1)
  Replica 2 — DataNode-2 (rack 2)
  Replica 3 — DataNode-3 (rack 2)

Rack-aware placement. 1 копия в local rack, 2 в other rack — survives rack failure.

При DataNode failure — NameNode replicates lost blocks.

Federation и HA

HA. Active + Standby NameNode. ZooKeeper coordinates.

Federation. Multiple NameNodes, каждый owns namespace. Scales metadata beyond single NameNode RAM.

EC (Erasure Coding). Alternative replication. RAID-like — saves storage at cost of recompute. 50%+ storage savings.

Связанные темы

FAQ

HDFS vs S3?

S3 — managed, durable, cheap. HDFS — self-hosted, low-latency. В 2026 lake часто на S3-compatible (HDFS — legacy).

Это официальная информация?

Нет. Статья основана на документации Apache Hadoop.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.