ETL vs ELT на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем спрашивают на собесе DE
ETL vs ELT — фундаментальная архитектурная развилка. На собесе DE: «отличие», «почему ELT стал стандартом», «что такое медальон».
Классический ETL
Extract → Transform → Load.
Source → ETL Engine (in-memory) → Target DWH
↑
трансформации здесьСтек 2000-2010:
- Informatica, IBM DataStage, Talend, SSIS.
- Трансформации в специальных engines (RAM-based, Java/.NET).
- Target DWH — Oracle / Teradata, дорогие, не для тяжёлых трансформаций.
Принципы:
- Очистка, бизнес-правила применяются до загрузки.
- DWH хранит «чистые» данные.
- Engine — отдельная инфраструктура, дорогая в эксплуатации.
Современный ELT
Extract → Load → Transform.
Source → Data Lake / DWH → Transformation in DWH
↑
SQL, dbt, SparkСтек 2015-2026:
- Loaders: Airbyte, Fivetran, Stitch, Debezium.
- DWH/Lakehouse: Snowflake, BigQuery, Databricks, ClickHouse.
- Transformation: dbt, Spark SQL, ClickHouse SQL.
Принципы:
- Сырые данные сначала загружаются в DWH (raw layer).
- Трансформации внутри DWH (push-down).
- DWH — мощный compute, не только storage.
Почему ELT победил
Облачные DWH стали дешёвыми и мощными. Snowflake / BigQuery масштабируются elastically. Compute дешевле, чем содержать ETL-engine.
Schema-on-read. Лучше загрузить «как есть» и разобраться позже. Изменения схемы источника не ломают пайплайн.
dbt стандартизировал transformation в SQL. Версионирование, тесты, документация — всё в одном месте.
Time-to-value быстрее. Загрузить сырьё за день, трансформировать инкрементально.
Reusability. Из одного raw слоя можно построить разные витрины.
ETL остаётся в legacy-системах и в местах, где compute дороже storage (например, on-prem банки).
Медальон-архитектура
Стандартный паттерн ELT:
Bronze (raw). Сырые данные, минимум преобразований (только тип-касты).
Silver (cleansed). Очистка, дедупликация, нормализация, joining.
Gold (curated). Бизнес-витрины (star schema, marts).
Source → Bronze → Silver → Gold → BIПреимущества:
- Bronze — переиграть трансформации без перезагрузки.
- Silver — единая «правда» для аналитиков.
- Gold — оптимизирован под конкретные use-case.
В Databricks / Lakehouse это родной паттерн. В Snowflake / Postgres / CH — реализуется через схемы (raw., staging., marts.).
Reverse ETL
Обратное направление: из DWH в operational системы.
DWH → Reverse ETL tool → Salesforce / HubSpot / ad platformsЗачем:
- Customer 360 в DWH → синхронизировать в CRM.
- ML-скоры в Marketing tool для активации.
- Сегменты в рекламные платформы.
Tools: Hightouch, Census, Polytomic.
Частые ошибки
Делать transformation на источнике (старый ETL) при наличии облачного DWH. Лишний middleware, сложнее поддерживать.
Сразу строить gold без bronze. Без сырого слоя — переделать что-то позже невозможно без ре-extract.
Загружать сырьё в production schema. Bronze должен быть отделён.
Не версионировать transformation код. dbt + git — стандарт.
Tests только на gold. Тесты на каждом слое: bronze (sanity), silver (uniqueness, completeness), gold (бизнес).
Игнорировать data lineage. В медальоне особенно важно — какая колонка из какого источника.
ETL-инструмент для современного стека. Если есть Snowflake / BQ / CH — Informatica / SSIS не нужен.
Связанные темы
- Inmon vs Kimball для DE
- dbt на собесе DE
- Lakehouse Iceberg Delta для DE
- CDC и Debezium на собесе DE
- Подготовка к собесу Data Engineer
FAQ
Spark — ETL или ELT?
Зависит от использования. Spark на staging cluster для трансформаций до DWH — ETL. Spark внутри Databricks Lakehouse — ELT. Инструмент тот же, паттерн разный.
ELT медленнее ETL?
Не обязательно. Современные DWH специально оптимизированы под mass-аналитику. На больших данных compute в DWH часто быстрее, чем в RAM ETL-engine.
Когда оправдан Informatica в 2026?
Legacy enterprise (банки, страховщики, госсектор) с большим existing pipeline. Новые проекты — почти всегда ELT.
Это официальная информация?
Нет. Статья основана на материалах dbt Labs, Databricks, Snowflake и опыте отрасли.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.