Собеседование на Data Engineer в Ozon
Содержание:
Почему Ozon — особенный работодатель для DE
Ozon — один из двух крупнейших маркетплейсов России, активно растёт. DE здесь работает с гигантскими объёмами событий (миллиарды в день), миллионами товаров и продавцов. Стек: Spark, Airflow, Kafka, ClickHouse, S3-совместимое хранилище, lakehouse-архитектура. Команды покрывают: рекомендации, поиск, логистику, финансы, fraud, marketing analytics.
Особенность: двухсторонний маркетплейс — данные о покупателях и продавцах. DE-pipeline-ы обслуживают сразу несколько потребителей: продуктовые команды, аналитиков, DS, ML-инженеров, финансы. Это значит data modeling в Ozon — это компромисс между производительностью и многоцелевым использованием. Актуальные вакансии — на странице карьеры Ozon.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Особенности Ozon:
- Опыт с большими объёмами данных и распределёнными системами
- Знание Spark, Kafka, Airflow
- В какое направление интересно (рекомендации / логистика / финансы)
2. SQL deep dive (60 минут)
Live-coding SQL на маркетплейс-данных: воронки, retention buyers и sellers, RFM, агрегаты по транзакциям. Оптимизация запросов. Подробнее — SQL на собесе.
3. Инструменты и архитектура (60-90 минут)
Темы:
- Spark deep dive: catalyst, optimizer, shuffle, broadcast, partitioning
- Kafka: exactly-once semantics, consumer groups, retention
- ClickHouse / OLAP-системы
- Lakehouse: Iceberg / Delta Lake / Hudi
- Airflow / Dagster: DAG-patterns, sensors, idempotence
Подготовка: DE hub, Spark на собесе, Kafka на собесе.
4. Data modeling (45-60 минут)
«Спроектируй DWH для маркетплейса», «как хранить временные ряды просмотров и кликов на масштабе 10B событий».
5. System design (60-90 минут)
«Спроектируй pipeline для real-time рекомендаций», «как обработать поток заказов с задержкой <1 минуты».
6. Поведенческое (45 минут)
STAR-вопросы.
7. Финал с лидом DE
Стратегический разговор.
Что Ozon ценит в DE
- Опыт с большими объёмами. Petabyte-scale storage, billion-event-per-day pipelines
- Понимание lakehouse. Iceberg, Delta Lake — современный стандарт
- Skill в Spark. Optimization, debugging, scaling
- Понимание маркетплейс-домена. Buyer/seller данные имеют разную природу
- Скорость работы. Релизы недельные
Типичные задачи и кейсы
- «Spark job обрабатывает 1TB логов за 4 часа. Сократи до 1 часа»
- «Поток заказов 1000/sec. Спроектируй pipeline для real-time дашборда»
- «Late-arriving события из логистики приходят с задержкой до 24 часов. Как обновлять метрики корректно?»
- «У нас сотни DAG-ов в Airflow. Как обеспечить data quality и SLA?»
- «Спроектируй data product для команды product-аналитиков»
Как готовиться: план
- SQL до автоматизма. Маркетплейс-метрики через SQL: GMV, AOV, retention buyers/sellers. SQL-раздел.
- Spark глубоко. «Spark: The Definitive Guide» + Catalyst optimizer + practical tuning.
- Lakehouse архитектура. Iceberg / Delta Lake документация.
- Kafka и streaming. Exactly-once, ordering, partition strategies.
- Distributed systems. «Designing Data-Intensive Applications» (Kleppmann).
- System design. Прорешать 10+ кейсов «спроектируй pipeline».
Частые ошибки
- Игнорировать data lineage. В маркетплейсе много потребителей данных. PM-аналитики, DS, финансисты — все хотят знать, откуда цифра
- Зубрить инструменты без принципов. «Я делал Spark» — мало. Нужно объяснить shuffle, partitioning, broadcast joins
- Не учитывать sellers данные. Buyer-side популярна, seller-side — отдельная сложность с retention, churn, billing
- Слабый SQL на масштабе. Запрос на staging-данных работает за 10s, на prod — 2 часа. Причины и оптимизация
- Игнорировать cost. Spark cluster — это деньги. Оптимизация = снижение costs
Связанные темы
- Собеседование на Data Engineer
- Собеседование на DE в Яндексе
- Apache Spark на собесе DE
- Kafka на собесе DE
- Lakehouse vs DWH на собесе DE
FAQ
Сколько этапов в собеседовании на DE в Ozon?
Обычно 5-7: рекрутер → SQL → инструменты → data modeling → system design → поведенческое → финал. Срок 3-6 недель.
Нужен ли опыт с маркетплейсами?
Желателен. Релевантен опыт с e-commerce / двухсторонними рынками. Если из других доменов — упор на готовность освоить.
Какие инструменты обязательны?
SQL, Python, Spark — must. Airflow, Kafka — сильно желательно. ClickHouse и lakehouse-инструменты — преимущество.
Спрашивают ли алгоритмы?
Да, базовые. LeetCode Easy/Medium. Hash maps, two pointers, простой DP.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.