Собеседование на Data Engineer в Ozon
Содержание:
Почему Ozon — особенный работодатель для DE
Ozon — крупнейший маркетплейс с огромным объёмом данных: миллиарды событий (просмотры, клики, заказы), сотни миллионов SKU, десятки миллионов клиентов. Data-стек частично open-source: Hadoop, Spark, ClickHouse, Airflow. Параллельно — много in-house инструментов.
Особенность — двусторонняя площадка: данные приходят и от buyer-side (клиенты), и от seller-side (продавцы). Это создаёт уникальные DE-задачи: graph-данные, real-time pricing, demand forecasting на иерархическом уровне. Актуальные вакансии — на карьерной странице Ozon.
Информация основана на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с HR (30-40 минут)
Знакомство:
- Стек DE, опыт
- В какую команду заходишь (Logistics / Marketplace / RecSys / Search / Finance)
- Готовность к высокому темпу
Питч 90 секунд.
2. SQL глубоко (60-90 минут)
E-com — это много транзакционных данных. SQL — основной язык DE.
Что спрашивают:
- Window functions, CTE, рекурсивные queries
- Оптимизация: indices, partitioning
- ClickHouse query language (если команда работает на CH)
- Анализ slow queries
Подготовка: SQL для DE, SQL-тренажёр, anti и semi joins на собесе DE.
3. Алгоритмы / coding (60 минут)
LeetCode Easy-Medium. Python обычно. Иногда — Scala (если команда Spark-ориентирована).
4. Spark / Hadoop (60-90 минут)
Если идёшь в data platform или ML-инфру — Spark обязателен.
Вопросы:
- Spark architecture: driver, executor, RDD vs DataFrame vs Dataset
- Joins: broadcast vs sort-merge, когда какой
- Optimizations: caching, partitioning, skew handling
- Hadoop: HDFS, YARN, MapReduce — базовое понимание
Подготовка: Spark deep dive.
5. DE system design (60-90 минут)
Сценарии:
- «Pipeline для логов кликов главной страницы: 5TB/день, обработать к 8am»
- «Real-time inventory updates: продавец залил 100k SKU, надо обновить поиск за 1 час»
- «Спроектируй DWH для маркетплейса: orders, products, sellers»
Что оценивают:
- Batch vs streaming trade-off
- Data modeling: Kimball, Data Vault
- Idempotency, retries, monitoring
- Cost optimization (storage, compute)
Подготовка: data modeling, Airflow на собесе DE, CAP теорема для DE.
6. Поведенческое / фит
STAR. Фокус:
- Расскажи про инцидент в data pipeline
- Спорное технологическое решение — как принял
- Кросс-функциональная работа (DE + DS + PM)
- Большой проект, который вырос больше планов
Особенности по командам
| Команда | Стек / задачи |
|---|---|
| Marketplace / Search | ClickHouse, real-time inventory, search indexing |
| RecSys / ML инфра | Spark, feature stores, model serving pipelines |
| Logistics | ETA-аналитика, route optimization data |
| Finance / Billing | Greenplum-подобный MPP, ETL отчётов, регуляторика |
| Marketing / CRM | Customer 360°, event-driven segmentation |
| Data Platform | Внутренние data-tools для всех команд |
Что Ozon ценит в DE
- Масштаб. Решения работают на сотнях миллионов SKU и десятках миллионов клиентов. Brute-force подходы не масштабируются
- Pragmatism. Не «идеальная архитектура за полгода», а «MVP за 2 недели, итерируем»
- SQL deep. В e-com DE пишет SQL много. Без window functions — слабо
- Production-mindset. Тесты, мониторинг, data quality — обязательно
- Кросс-функциональная работа. DE общается с DS, PM, ML-команда. Soft skills имеют значение
Как готовиться: план
- SQL deep. Window functions, оптимизация, ClickHouse SQL.
- Spark. Spark deep dive subtopic, joins, skew, caching.
- DE стек. Airflow + dbt + ClickHouse / Greenplum. Airflow на собесе DE.
- E-com специфика. Inventory, pricing, recommendations data flows.
- DE system design. Batch ETL, real-time inventory, lakehouse.
- STAR-истории. 6-8 готовых.
Частые ошибки
- «Я знаю pandas» вместо Spark. В e-com на масштабе Ozon pandas не подходит. Spark / SQL на MPP — обязательно
- Слабый SQL. «Я делаю ETL через Python loops» — junior. ETL на declarative SQL / dbt — production
- Игнор data quality. Большие таблицы без freshness checks, без duplicate checks — катастрофа
- System design без масштаба. «Сделаю один Postgres» не работает на 5TB/день
- Без monitoring и alerts. ETL ломается → дашборды показывают вчерашние данные → потерянная revenue
Связанные темы
- Собеседование на Data Engineer
- Собеседование на DS в Ozon
- Spark deep dive
- SQL для DE
- Anti и semi joins на собесе DE
FAQ
Сколько раундов в Ozon для DE?
Обычно 4-5: HR → SQL → coding → system design → фит. Срок 3-5 недель.
Нужен ли e-com опыт?
Желательно, но не строго. Сильный DE без e-com проходит.
Spark или Hadoop важнее?
Spark. Hadoop как infrastructure, Spark как compute layer.
Берут ли в Ozon junior DE?
Через стажировки. Сильный конкурс на DE-роли.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.