Собеседование на Data Engineer в Ozon

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Ozon — особенный работодатель для DE

Ozon — один из двух крупнейших маркетплейсов России, активно растёт. DE здесь работает с гигантскими объёмами событий (миллиарды в день), миллионами товаров и продавцов. Стек: Spark, Airflow, Kafka, ClickHouse, S3-совместимое хранилище, lakehouse-архитектура. Команды покрывают: рекомендации, поиск, логистику, финансы, fraud, marketing analytics.

Особенность: двухсторонний маркетплейс — данные о покупателях и продавцах. DE-pipeline-ы обслуживают сразу несколько потребителей: продуктовые команды, аналитиков, DS, ML-инженеров, финансы. Это значит data modeling в Ozon — это компромисс между производительностью и многоцелевым использованием. Актуальные вакансии — на странице карьеры Ozon.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Особенности Ozon:

  • Опыт с большими объёмами данных и распределёнными системами
  • Знание Spark, Kafka, Airflow
  • В какое направление интересно (рекомендации / логистика / финансы)

2. SQL deep dive (60 минут)

Live-coding SQL на маркетплейс-данных: воронки, retention buyers и sellers, RFM, агрегаты по транзакциям. Оптимизация запросов. Подробнее — SQL на собесе.

3. Инструменты и архитектура (60-90 минут)

Темы:

  • Spark deep dive: catalyst, optimizer, shuffle, broadcast, partitioning
  • Kafka: exactly-once semantics, consumer groups, retention
  • ClickHouse / OLAP-системы
  • Lakehouse: Iceberg / Delta Lake / Hudi
  • Airflow / Dagster: DAG-patterns, sensors, idempotence

Подготовка: DE hub, Spark на собесе, Kafka на собесе.

4. Data modeling (45-60 минут)

«Спроектируй DWH для маркетплейса», «как хранить временные ряды просмотров и кликов на масштабе 10B событий».

5. System design (60-90 минут)

«Спроектируй pipeline для real-time рекомендаций», «как обработать поток заказов с задержкой <1 минуты».

6. Поведенческое (45 минут)

STAR-вопросы.

7. Финал с лидом DE

Стратегический разговор.

Что Ozon ценит в DE

  • Опыт с большими объёмами. Petabyte-scale storage, billion-event-per-day pipelines
  • Понимание lakehouse. Iceberg, Delta Lake — современный стандарт
  • Skill в Spark. Optimization, debugging, scaling
  • Понимание маркетплейс-домена. Buyer/seller данные имеют разную природу
  • Скорость работы. Релизы недельные

Типичные задачи и кейсы

  • «Spark job обрабатывает 1TB логов за 4 часа. Сократи до 1 часа»
  • «Поток заказов 1000/sec. Спроектируй pipeline для real-time дашборда»
  • «Late-arriving события из логистики приходят с задержкой до 24 часов. Как обновлять метрики корректно?»
  • «У нас сотни DAG-ов в Airflow. Как обеспечить data quality и SLA?»
  • «Спроектируй data product для команды product-аналитиков»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. SQL до автоматизма. Маркетплейс-метрики через SQL: GMV, AOV, retention buyers/sellers. SQL-раздел.
  2. Spark глубоко. «Spark: The Definitive Guide» + Catalyst optimizer + practical tuning.
  3. Lakehouse архитектура. Iceberg / Delta Lake документация.
  4. Kafka и streaming. Exactly-once, ordering, partition strategies.
  5. Distributed systems. «Designing Data-Intensive Applications» (Kleppmann).
  6. System design. Прорешать 10+ кейсов «спроектируй pipeline».

Частые ошибки

  • Игнорировать data lineage. В маркетплейсе много потребителей данных. PM-аналитики, DS, финансисты — все хотят знать, откуда цифра
  • Зубрить инструменты без принципов. «Я делал Spark» — мало. Нужно объяснить shuffle, partitioning, broadcast joins
  • Не учитывать sellers данные. Buyer-side популярна, seller-side — отдельная сложность с retention, churn, billing
  • Слабый SQL на масштабе. Запрос на staging-данных работает за 10s, на prod — 2 часа. Причины и оптимизация
  • Игнорировать cost. Spark cluster — это деньги. Оптимизация = снижение costs

Связанные темы

FAQ

Сколько этапов в собеседовании на DE в Ozon?

Обычно 5-7: рекрутер → SQL → инструменты → data modeling → system design → поведенческое → финал. Срок 3-6 недель.

Нужен ли опыт с маркетплейсами?

Желателен. Релевантен опыт с e-commerce / двухсторонними рынками. Если из других доменов — упор на готовность освоить.

Какие инструменты обязательны?

SQL, Python, Spark — must. Airflow, Kafka — сильно желательно. ClickHouse и lakehouse-инструменты — преимущество.

Спрашивают ли алгоритмы?

Да, базовые. LeetCode Easy/Medium. Hash maps, two pointers, простой DP.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.