Airbyte vs Fivetran на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем спрашивают на собесе DE
EL-инструменты — стандарт ELT-stack. На собесе DE: «как ты загружаешь данные», «open source vs managed».
Airbyte
Open source EL-tool. Можно self-host или managed cloud.
Особенности:
- 350+ source connectors (community-maintained).
- Custom connector через CDK.
- Schema evolution.
- Incremental sync (timestamp / cursor).
- CDC поддержка для популярных БД.
Pricing. Self-hosted free. Cloud — per-row.
Минусы. Качество community connectors неровное. Без enterprise support — на свой risk.
Fivetran
Managed SaaS, premium tier.
Особенности:
- 400+ enterprise-grade connectors.
- Auto schema evolution.
- 24/7 support.
- Compliance (SOC 2, HIPAA).
- Reliable «just works».
Pricing. Per-row, дорого. Enterprise-only.
Минусы. Стоимость. Cвободы customization меньше.
Stitch и другие
Stitch (Talend). Cheap alternative Fivetran. Меньше connectors.
Hevo Data. Indian competitor.
Meltano. Open source, Singer protocol-based.
dlthub (data load tool). Python-native, code-first.
Custom Python. Многие команды пишут свои loaders на Python (psycopg2 + boto3 + cron).
Сравнение
| Airbyte | Fivetran | Stitch | |
|---|---|---|---|
| Тип | Open source | SaaS | SaaS |
| Connectors | 350+ | 400+ | 130+ |
| Self-host | Да | Нет | Нет |
| Quality | Variable | High | Medium |
| Pricing | Free / per-row | Per-row, expensive | Per-row, cheaper |
| Support | Community / paid | 24/7 enterprise | |
| In РФ | Self-host OK | Недоступен | Недоступен |
В РФ — какие альтернативы
С 2022 — Fivetran / Stitch недоступны.
Используют:
- Airbyte self-hosted. Open source доступен везде.
- Custom Python pipelines. Загрузчики на boto3 + psycopg2 + Airflow.
- Yandex DataTransfer. Yandex Cloud product, в основном на Yandex стек.
- Debezium + Kafka. Для CDC.
- dlt / Meltano. Open source.
В большинстве крупных компаний — гибрид Airbyte + custom Python pipelines.
Частые ошибки
Self-hosted Airbyte без HA. Single instance — single point of failure. Setup HA + monitoring.
Fivetran без оценки cost. Per-row pricing на больших volumes — взрыв.
Custom Python для standard cases. Изобретать велосипед. Использовать готовые connectors.
Не мониторить sync delays. Source может тихо отставать на дни.
Schema evolution surprise. Source поменял column type → pipeline fails. Setup alerting.
Связанные темы
- ETL vs ELT для DE
- CDC и Debezium на собесе DE
- CDC vs batch loading для DE
- Airflow на собесе DE
- Подготовка к собесу Data Engineer
FAQ
Airbyte для production используется?
В небольших и средних — да. На petabyte-scale — реже из-за overhead.
Это официальная информация?
Нет. Статья основана на документации Airbyte / Fivetran / Stitch.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.