Резюме Data Engineer: структура, примеры, ошибки

Проверь себя · 1/3разбор после ответа
Вы сортируете товары по величине скидки discount по убыванию. Поле discount может быть NULL (скидки нет). Чтобы товары без скидки всегда оказывались внизу независимо от настроек СУБД, какой вариант сортировки выбрать?

Зачем DE особенное резюме

Резюме Data Engineer — это про инженерные навыки: инструменты, scale, optimization. Рекрутер за 30 секунд должен увидеть: какие pipelines строил, какие технологии использовал, какой объём данных, какой uptime.

Хороший DE-резюме показывает: scale (PB-данных / B-событий в день), stack (Spark / Airflow / Kafka / ClickHouse), optimization (ускорил pipeline в 10x), architecture (спроектировал DWH / streaming pipeline).

Структура резюме DE

1. Заголовок: Имя · позиция · контакты
2. Summary (3-5 строк)
3. Skills (категории)
4. Experience (с проектами + scale + результат)
5. Projects (pet-projects, open-source)
6. Education
7. Дополнительно

Что писать в каждом блоке

Summary (3-5 строк)

Плохо: «Опытный data engineer, ищу новые вызовы».

Хорошо: «Data Engineer с 4 годами опыта в построении ETL/streaming pipelines на масштабе 5B+ событий в день. Спроектировал DWH в Snowflake для Y. Стек: Spark, Airflow, Kafka, ClickHouse, dbt. Снизил latency main pipeline с 4h до 30min.»

Skills (technical)

Категории:

  • Languages: Python (pandas, PySpark), SQL (advanced), Java / Scala (если знаешь)
  • Big Data: Spark, Hadoop, Kafka, Flink
  • Orchestration: Airflow, Dagster, Prefect
  • Storage: ClickHouse, Snowflake, BigQuery, Redshift, PostgreSQL, S3
  • Data modeling: Star schema, Snowflake, Data Vault, SCD-типы
  • Cloud: AWS, GCP, Yandex Cloud (если работал)
  • CI/CD + DevOps: Docker, Kubernetes, GitHub Actions, Terraform

Не пиши всё. Только то, что использовал не менее 6 месяцев и можешь обсудить.

Experience

Формат STAR + scale:

Компания · Должность · Период

• Project / задача: что строил
• Scale: N событий / TB / users
• Metric: ускорил X, снизил Y, achieved Z
• Stack: технологии

Хорошо:

Yandex · Data Engineer · 2023-2026

• Спроектировал и запустил streaming pipeline для real-time CTR-метрик
  рекламы. Обрабатывает 5B событий/день с latency p95 < 30s.
  Stack: Kafka → Spark Structured Streaming → ClickHouse.

• Оптимизировал главный аналитический pipeline в Spark с 4h до 30min
  (broadcast joins, AQE, лучшее партиционирование).
  Сэкономил X compute-часов в месяц.

• Внедрил data quality checks через Great Expectations.
  Снижение incident-rate из-за плохих данных на 70%.

Stack: Spark, Kafka, Airflow, ClickHouse, Great Expectations.

Плохо:

Yandex · Data Engineer · 2023-2026

• Делал ETL
• Работал с большими данными
• Поддерживал pipeline

Projects: end-to-end pet-project

Для junior / mid — must. Pet-project показывает, что ты можешь строить pipeline самостоятельно.

Real-time Twitter sentiment pipeline (pet-project)
• End-to-end: Twitter API → Kafka → Spark Streaming → ClickHouse → Grafana
• Размер: 100K events/min throughput
• Stack: Spark, Kafka, ClickHouse, Docker Compose
• GitHub: github.com/...

Шаблон резюме

ИМЯ ФАМИЛИЯ
Data Engineer · Middle
email · t.me/... · github.com/... · Москва

SUMMARY
Data Engineer с N годами опыта в [domain]. Спроектировал X.
Стек: Spark, Airflow, Kafka. [Главный impact].

SKILLS
Languages: Python (PySpark, pandas), SQL (advanced), Java
Big Data: Spark, Kafka, Hadoop
Orchestration: Airflow, Dagster
Storage: ClickHouse, Snowflake, PostgreSQL
Cloud: Yandex Cloud, AWS basics

EXPERIENCE

Компания · DE · MM.YYYY — MM.YYYY
• Project: что построил, scale (N events/TB/users)
  Результат (метрика, скорость, retention)
  Stack: ...

[Предыдущие]

PROJECTS

Pet-project name
• Описание (end-to-end)
• Stack
• GitHub link

EDUCATION
МГУ / ВУЗ / ШАД — годы

ADDITIONAL
Языки: русский native, английский intermediate
Сертификаты (если есть): Databricks, AWS Data Engineer
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Метрики проектов

Без метрик — резюме DE не работает.

Метрики pipeline

  • Throughput: N events / sec, TB / day
  • Latency: p95 / p99 для streaming
  • Reliability: uptime %, recovery time
  • Cost: compute-часы, $/TB

Метрики оптимизации

  • «Ускорил pipeline в X раз»
  • «Снизил cost на X%»
  • «Уменьшил latency с Y до Z»

Метрики impact

  • Сколько пользователей-аналитиков работают с твоим DWH
  • Сколько ML-моделей кормятся твоим pipeline
  • Снижение data quality incidents

Частые ошибки

  • Список технологий без проектов. «Знаю Spark, Kafka, ClickHouse» — не достаточно. Нужны проекты с этими инструментами.
  • Без scale. «Делал ETL» — мало. «ETL на 1TB/день» — нормально. «ETL на 100TB/день» — сильно.
  • Без метрик оптимизации. «Оптимизировал Spark» — пусто. «С 4h до 30min» — конкретно.
  • Слишком много инструментов. Перечислил 30 технологий — рекрутер не поверит. 10 ключевых, которые знаешь глубоко.
  • Pet-project в Jupyter Notebook. DE — production. Pet-project = Docker + tests + deploy.
  • Слабый SQL в резюме. DE без SQL — нет. Укажи level advanced + примеры (window functions, optimization).
  • Шаблон hh.ru с soft skills. «Ответственный, нацеленный на результат» — это нон-tech. Замени на конкретные проекты.

Связанные темы

FAQ

Сколько страниц должно быть резюме DE?

Junior — 1 страница. Middle — 1-2. Senior — 2.

Нужен ли GitHub?

Сильно желателен, особенно для junior. Pet-projects + open-source contributions = signal.

Что важнее — scale или диверсификация стека?

Зависит от роли. В Yandex / Ozon — scale важнее. В стартапе — диверсификация (умение работать со многим).

Английский язык?

Если работа в РФ — русское резюме. Английское — дополнительно для международных позиций.

Что писать, если опыт DE меньше 1 года?

Усилить projects (end-to-end pet-projects), сертификаты (Databricks, AWS), участие в open-source. Опыт в DA / backend-разработке с pipeline-задачами — оформи как DE-experience.