AWS Redshift на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Архитектура Redshift

MPP DWH на AWS. Postgres-compatible SQL (forked).

Leader node — query planning, coordination.
Compute nodes — execute queries, store data.

Columnar storage с heavy compression.

Distribution keys

Define как data распределяется между nodes.

KEY. Hash распределение по column. Same key → same node. Good для joins на этом column.

ALL. Every node имеет full copy. Good для small dim tables.

EVEN. Round-robin. Good если no clear key.

AUTO. Redshift sам выбирает. Default modern.

CREATE TABLE orders (...) DISTKEY(user_id) SORTKEY(created_at);

Bad distkey → cross-node shuffles, slow queries.

Sort keys

Define порядок данных на диске. Like ClickHouse ORDER BY.

Compound. Order by (col1, col2). Good если фильтры с col1.

Interleaved. Equal weight на all sort columns. Less common.

SORTKEY(event_date, user_id)

WHERE event_date — fast (zone maps).

RA3 nodes

Modern Redshift node type. Compute / storage separated.

RA3: SSD на node для cache, data в RMS (Redshift Managed Storage, S3-backed).

Pros: scale compute и storage independently. Pay для what use.

Old DC2 / DS2 — coupled storage.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Redshift Spectrum

Query S3 без loading в Redshift.

CREATE EXTERNAL TABLE spectrum.orders (...)
LOCATION 's3://bucket/orders/';

SELECT * FROM redshift.users r JOIN spectrum.orders o ON r.id = o.user_id;

Combine warm Redshift data + cold S3.

Vs Snowflake

Redshift Snowflake
Storage / compute RA3 — yes (Spectrum) Always separated
Auto-scaling Limited Native
Multi-cloud AWS only AWS + Azure + GCP
SQL dialect Postgres-like Specific
Concurrency Limited (queue) Auto-scale clusters

В РФ оба недоступны. Local — ClickHouse / Greenplum.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации AWS Redshift.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.