7 мая 2026 г.·2 мин чтения

HDFS на собеседовании Data Engineer

Q: Это официальная информация?

Нет. Статья основана на документации Apache Hadoop. --- Тренируйте Data Engineering — [откройте тренажёр](https://t.me/kariernik_bot/app?startapp=web_blog_hdfs-na-sobesedovanii-de) с 1500+ вопросами для собесов.

Проверь себя · 1/3разбор после ответа

В таблице users столбец is_test может быть 0, 1 или NULL. Нужно исключить тестовых пользователей (is_test = 1), но оставить остальных, включая NULL. Какой фильтр корректен?

Содержание:

HDFS архитектура
Blocks
NameNode и DataNode
Replication
Federation и HA
Связанные темы
FAQ

HDFS архитектура

Hadoop Distributed File System. Distributed FS для big files на commodity hardware.

Properties:

Append-only (мостly).
Immutable files после close.
Optimized для large sequential reads.
Не подходит для many small files (NameNode bottleneck).

Blocks

Файлы разбиваются на blocks (default 128 MB).

big_file.parquet (1 GB)
  → block 1 (128 MB)
  → block 2 (128 MB)
  ...

Каждый block stored на multiple DataNodes (replication).

NameNode и DataNode

NameNode. Master. Stores metadata (file → blocks → DataNodes).

In-memory (RAM hungry).
Single point of failure (без HA setup).

DataNode. Worker. Stores actual block data.

Periodically reports блоки to NameNode.
Replication coordinated by NameNode.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Replication

Default replication factor — 3.

Block A:
  Replica 1 — DataNode-1 (rack 1)
  Replica 2 — DataNode-2 (rack 2)
  Replica 3 — DataNode-3 (rack 2)

Rack-aware placement. 1 копия в local rack, 2 в other rack — survives rack failure.

При DataNode failure — NameNode replicates lost blocks.

Federation и HA

HA. Active + Standby NameNode. ZooKeeper coordinates.

Federation. Multiple NameNodes, каждый owns namespace. Scales metadata beyond single NameNode RAM.

EC (Erasure Coding). Alternative replication. RAID-like — saves storage at cost of recompute. 50%+ storage savings.

Связанные темы

FAQ

HDFS vs S3?

S3 — managed, durable, cheap. HDFS — self-hosted, low-latency. В 2026 lake часто на S3-compatible (HDFS — legacy).

Это официальная информация?

Нет. Статья основана на документации Apache Hadoop.

Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.