Собеседование на Data Engineer в СДЭК

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему СДЭК — особенный работодатель для DE

СДЭК — крупный российский логистический оператор. DE работает с потоками операционных данных: статусы отправлений (миллионы в день), маршруты курьеров, состояние ПВЗ, биллинг B2B-клиентов. Стэк: Spark для batch, ClickHouse для аналитики реального времени, Kafka для tracking, Airflow для оркестрации.

Особенность: логистика — операционный домен, где данные обновляются непрерывно. Каждое отправление проходит десятки статусов. Подробнее — на странице карьеры СДЭК.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат может отличаться по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Специфика:

  • Был ли опыт с event-данными / streaming
  • Знание SQL deep + Python
  • Готовность к operational pipelines

2. SQL и Python (60 минут)

SQL — middle-senior. Python — pandas, pyspark.

3. Big Data + Streaming (60-90 минут)

Spark + Kafka + Spark Streaming.

4. ClickHouse / DWH (45-60 минут)

ClickHouse для аналитики, partitioning, MV.

5. Архитектура (60 минут)

«Pipeline для tracking отправлений», «отчёт SLA по регионам», «backfill историчных данных».

6. Поведенческое + финал

STAR + стратегический разговор.

Что СДЭК ценит в DE

  • Big data. Spark.
  • Streaming. Kafka + Spark Streaming для tracking.
  • ClickHouse. Real-time витрины.
  • Geo data. Координаты, расстояния.
  • DWH. Star schema, SCD.

Типичные задачи и кейсы

  • «Pipeline для tracking отправлений: статусы в реальном времени»
  • «Spark job на 2 TB событий: оптимизация»
  • «ClickHouse витрина для SLA-отчётов»
  • «Backfill историчных tracking-данных»
  • «Skewed key в Spark: топ-город даёт 30% событий»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Spark deep. RDD, DataFrame, optimizer, shuffle.
  2. Streaming. Kafka, Spark Streaming.
  3. ClickHouse. Engines, partitioning.
  4. DWH. Star schema, SCD.
  5. Airflow. Airflow на собесе DE.

Частые ошибки

  • Streaming поверхностно. Tracking — это event stream.
  • Слабая SQL. Senior-уровень.
  • Spark поверхностно. Без shuffle / skew — слабо.

Связанные темы

FAQ

Сколько этапов?

Обычно 5-6. Срок 4-6 недель.

Нужен ли опыт в логистике?

Желателен. Релевантным считается e-com, маркетплейс.

Какие инструменты главные?

Spark + Kafka + ClickHouse + Airflow.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.