AWS Athena на собеседовании Data Engineer

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Что такое Athena

AWS-managed query service. SQL на data в S3 без provisioning.

Под капотом — Trino (с 2022, до этого Presto).

Как работает

Athena → Glue Catalog (schema) → S3 (data) → result S3

Без cluster. Just query → results.

Поддерживает Parquet / ORC / JSON / CSV.

Pricing model

Per-query (default).

$5 / TB scanned data.

Optimization = scan less. Партиционирование, columnar formats — direct cost reduction.

Provisioned capacity (DPU-hours). Стоит если частые queries.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Optimization tactics

Partitioning. WHERE filter on partition column → skip prefixes.

SELECT * FROM events WHERE DATE = '2026-05-07';
-- only reads 2026-05-07 partition.

Columnar. Parquet > CSV. Athena reads только needed columns.

Compression. Snappy / Gzip.

Predicate pushdown. Уже built-in.

File size. Avoid many small files. 100MB+ optimal.

Athena vs Trino

Athena — managed Trino on AWS. No tuning, immediate.

Self-hosted Trino — control, cheaper at scale, customization.

В РФ: Athena недоступен (AWS sanctions). Self-hosted Trino через Yandex DataProc или DIY.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации AWS Athena.


Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.