Apache Pulsar на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Что такое Pulsar

Open source streaming platform от Apache. Конкурент Kafka.

Архитектура

Separate compute (brokers) и storage (BookKeeper).

Producers → Brokers → BookKeeper (storage)
Consumers ← Brokers ← BookKeeper

Pros vs Kafka. Independent scaling. Add brokers без re-balancing data.

Tiered storage

Old data — auto-offload в S3 / HDFS / cheap storage.

Hot: BookKeeper (NVMe).
Warm: S3 (transparent).

Saves cost для long retention.

В Kafka — tiered storage с 3.6+, но менее зрелое.

Multi-tenancy

First-class feature. Tenants → namespaces → topics.

tenant_a/
  namespace_1/
    topic_x
    topic_y
tenant_b/
  ...

Per-tenant quotas, auth, retention. SaaS-friendly.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Geo-replication

Native. Topics replicate cross-cluster automatically.

US cluster ↔ EU cluster ↔ Asia cluster

Enables disaster recovery, geo-distributed apps.

В Kafka — через MirrorMaker (separate ops).

Pulsar vs Kafka

Pulsar Kafka
Storage / compute Separated Coupled (changing с KIP-405)
Multi-tenancy Native Limited
Geo-replication Native MirrorMaker
Adoption Growing Dominant
Ecosystem Smaller Larger
Operations More complex Simpler

Kafka — industry standard. Pulsar — better technically для multi-tenant / geo. В РФ Kafka dominates.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации Apache Pulsar.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.