Собеседование на Data Engineer в Ozon

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Ozon — особенный работодатель для DE

Ozon — крупнейший маркетплейс с огромным объёмом данных: миллиарды событий (просмотры, клики, заказы), сотни миллионов SKU, десятки миллионов клиентов. Data-стек частично open-source: Hadoop, Spark, ClickHouse, Airflow. Параллельно — много in-house инструментов.

Особенность — двусторонняя площадка: данные приходят и от buyer-side (клиенты), и от seller-side (продавцы). Это создаёт уникальные DE-задачи: graph-данные, real-time pricing, demand forecasting на иерархическом уровне. Актуальные вакансии — на карьерной странице Ozon.

Информация основана на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с HR (30-40 минут)

Знакомство:

  • Стек DE, опыт
  • В какую команду заходишь (Logistics / Marketplace / RecSys / Search / Finance)
  • Готовность к высокому темпу

Питч 90 секунд.

2. SQL глубоко (60-90 минут)

E-com — это много транзакционных данных. SQL — основной язык DE.

Что спрашивают:

  • Window functions, CTE, рекурсивные queries
  • Оптимизация: indices, partitioning
  • ClickHouse query language (если команда работает на CH)
  • Анализ slow queries

Подготовка: SQL для DE, SQL-тренажёр, anti и semi joins на собесе DE.

3. Алгоритмы / coding (60 минут)

LeetCode Easy-Medium. Python обычно. Иногда — Scala (если команда Spark-ориентирована).

4. Spark / Hadoop (60-90 минут)

Если идёшь в data platform или ML-инфру — Spark обязателен.

Вопросы:

  • Spark architecture: driver, executor, RDD vs DataFrame vs Dataset
  • Joins: broadcast vs sort-merge, когда какой
  • Optimizations: caching, partitioning, skew handling
  • Hadoop: HDFS, YARN, MapReduce — базовое понимание

Подготовка: Spark deep dive.

5. DE system design (60-90 минут)

Сценарии:

  • «Pipeline для логов кликов главной страницы: 5TB/день, обработать к 8am»
  • «Real-time inventory updates: продавец залил 100k SKU, надо обновить поиск за 1 час»
  • «Спроектируй DWH для маркетплейса: orders, products, sellers»

Что оценивают:

  • Batch vs streaming trade-off
  • Data modeling: Kimball, Data Vault
  • Idempotency, retries, monitoring
  • Cost optimization (storage, compute)

Подготовка: data modeling, Airflow на собесе DE, CAP теорема для DE.

6. Поведенческое / фит

STAR. Фокус:

  • Расскажи про инцидент в data pipeline
  • Спорное технологическое решение — как принял
  • Кросс-функциональная работа (DE + DS + PM)
  • Большой проект, который вырос больше планов

Особенности по командам

Команда Стек / задачи
Marketplace / Search ClickHouse, real-time inventory, search indexing
RecSys / ML инфра Spark, feature stores, model serving pipelines
Logistics ETA-аналитика, route optimization data
Finance / Billing Greenplum-подобный MPP, ETL отчётов, регуляторика
Marketing / CRM Customer 360°, event-driven segmentation
Data Platform Внутренние data-tools для всех команд

Что Ozon ценит в DE

  • Масштаб. Решения работают на сотнях миллионов SKU и десятках миллионов клиентов. Brute-force подходы не масштабируются
  • Pragmatism. Не «идеальная архитектура за полгода», а «MVP за 2 недели, итерируем»
  • SQL deep. В e-com DE пишет SQL много. Без window functions — слабо
  • Production-mindset. Тесты, мониторинг, data quality — обязательно
  • Кросс-функциональная работа. DE общается с DS, PM, ML-команда. Soft skills имеют значение
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. SQL deep. Window functions, оптимизация, ClickHouse SQL.
  2. Spark. Spark deep dive subtopic, joins, skew, caching.
  3. DE стек. Airflow + dbt + ClickHouse / Greenplum. Airflow на собесе DE.
  4. E-com специфика. Inventory, pricing, recommendations data flows.
  5. DE system design. Batch ETL, real-time inventory, lakehouse.
  6. STAR-истории. 6-8 готовых.

Частые ошибки

  • «Я знаю pandas» вместо Spark. В e-com на масштабе Ozon pandas не подходит. Spark / SQL на MPP — обязательно
  • Слабый SQL. «Я делаю ETL через Python loops» — junior. ETL на declarative SQL / dbt — production
  • Игнор data quality. Большие таблицы без freshness checks, без duplicate checks — катастрофа
  • System design без масштаба. «Сделаю один Postgres» не работает на 5TB/день
  • Без monitoring и alerts. ETL ломается → дашборды показывают вчерашние данные → потерянная revenue

Связанные темы

FAQ

Сколько раундов в Ozon для DE?

Обычно 4-5: HR → SQL → coding → system design → фит. Срок 3-5 недель.

Нужен ли e-com опыт?

Желательно, но не строго. Сильный DE без e-com проходит.

Spark или Hadoop важнее?

Spark. Hadoop как infrastructure, Spark как compute layer.

Берут ли в Ozon junior DE?

Через стажировки. Сильный конкурс на DE-роли.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.