AWS Redshift на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Архитектура Redshift
MPP DWH на AWS. Postgres-compatible SQL (forked).
Leader node — query planning, coordination.
Compute nodes — execute queries, store data.Columnar storage с heavy compression.
Distribution keys
Define как data распределяется между nodes.
KEY. Hash распределение по column. Same key → same node. Good для joins на этом column.
ALL. Every node имеет full copy. Good для small dim tables.
EVEN. Round-robin. Good если no clear key.
AUTO. Redshift sам выбирает. Default modern.
CREATE TABLE orders (...) DISTKEY(user_id) SORTKEY(created_at);Bad distkey → cross-node shuffles, slow queries.
Sort keys
Define порядок данных на диске. Like ClickHouse ORDER BY.
Compound. Order by (col1, col2). Good если фильтры с col1.
Interleaved. Equal weight на all sort columns. Less common.
SORTKEY(event_date, user_id)WHERE event_date — fast (zone maps).
RA3 nodes
Modern Redshift node type. Compute / storage separated.
RA3: SSD на node для cache, data в RMS (Redshift Managed Storage, S3-backed).Pros: scale compute и storage independently. Pay для what use.
Old DC2 / DS2 — coupled storage.
Redshift Spectrum
Query S3 без loading в Redshift.
CREATE EXTERNAL TABLE spectrum.orders (...)
LOCATION 's3://bucket/orders/';
SELECT * FROM redshift.users r JOIN spectrum.orders o ON r.id = o.user_id;Combine warm Redshift data + cold S3.
Vs Snowflake
| Redshift | Snowflake | |
|---|---|---|
| Storage / compute | RA3 — yes (Spectrum) | Always separated |
| Auto-scaling | Limited | Native |
| Multi-cloud | AWS only | AWS + Azure + GCP |
| SQL dialect | Postgres-like | Specific |
| Concurrency | Limited (queue) | Auto-scale clusters |
В РФ оба недоступны. Local — ClickHouse / Greenplum.
Связанные темы
- Snowflake vs BigQuery для DE
- DWH ClickHouse для DE
- Greenplum для DE
- Database sharding для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации AWS Redshift.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.