Apache Pulsar на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Что такое Pulsar
Open source streaming platform от Apache. Конкурент Kafka.
Архитектура
Separate compute (brokers) и storage (BookKeeper).
Producers → Brokers → BookKeeper (storage)
Consumers ← Brokers ← BookKeeperPros vs Kafka. Independent scaling. Add brokers без re-balancing data.
Tiered storage
Old data — auto-offload в S3 / HDFS / cheap storage.
Hot: BookKeeper (NVMe).
Warm: S3 (transparent).Saves cost для long retention.
В Kafka — tiered storage с 3.6+, но менее зрелое.
Multi-tenancy
First-class feature. Tenants → namespaces → topics.
tenant_a/
namespace_1/
topic_x
topic_y
tenant_b/
...Per-tenant quotas, auth, retention. SaaS-friendly.
Geo-replication
Native. Topics replicate cross-cluster automatically.
US cluster ↔ EU cluster ↔ Asia clusterEnables disaster recovery, geo-distributed apps.
В Kafka — через MirrorMaker (separate ops).
Pulsar vs Kafka
| Pulsar | Kafka | |
|---|---|---|
| Storage / compute | Separated | Coupled (changing с KIP-405) |
| Multi-tenancy | Native | Limited |
| Geo-replication | Native | MirrorMaker |
| Adoption | Growing | Dominant |
| Ecosystem | Smaller | Larger |
| Operations | More complex | Simpler |
Kafka — industry standard. Pulsar — better technically для multi-tenant / geo. В РФ Kafka dominates.
Связанные темы
- Kafka на собесе DE
- Kafka consumer groups для DE
- Kafka Connect для DE
- Kafka Streams для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации Apache Pulsar.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.