AWS Athena на собеседовании Data Engineer
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Что такое Athena
AWS-managed query service. SQL на data в S3 без provisioning.
Под капотом — Trino (с 2022, до этого Presto).
Как работает
Athena → Glue Catalog (schema) → S3 (data) → result S3Без cluster. Just query → results.
Поддерживает Parquet / ORC / JSON / CSV.
Pricing model
Per-query (default).
$5 / TB scanned data.Optimization = scan less. Партиционирование, columnar formats — direct cost reduction.
Provisioned capacity (DPU-hours). Стоит если частые queries.
Optimization tactics
Partitioning. WHERE filter on partition column → skip prefixes.
SELECT * FROM events WHERE DATE = '2026-05-07';
-- only reads 2026-05-07 partition.Columnar. Parquet > CSV. Athena reads только needed columns.
Compression. Snappy / Gzip.
Predicate pushdown. Уже built-in.
File size. Avoid many small files. 100MB+ optimal.
Athena vs Trino
Athena — managed Trino on AWS. No tuning, immediate.
Self-hosted Trino — control, cheaper at scale, customization.
В РФ: Athena недоступен (AWS sanctions). Self-hosted Trino через Yandex DataProc или DIY.
Связанные темы
- Trino и Presto для DE
- S3 и object storage для DE
- Hive Metastore для DE
- Cloud ETL tools для DE
- Подготовка к собесу Data Engineer
FAQ
Это официальная информация?
Нет. Статья основана на документации AWS Athena.
Тренируйте Data Engineering — откройте тренажёр с 1500+ вопросами для собесов.