Собеседование на Data Scientist в Ozon
Содержание:
Почему Ozon — особенный работодатель
Ozon — крупнейший маркетплейс с десятками миллионов клиентов и сотнями миллионов SKU. Это создаёт уникальную ML-площадку: задачи на масштабе, которого нет почти нигде в России кроме Яндекса. Главные DS-направления:
- Рекомендательные системы (поиск товаров, листинги, «вам понравится»)
- Прогноз спроса (для пополнения склада, ценообразования)
- Search ranking
- Антифрод (продавцы, заказы, отзывы)
- Логистика (ETA, маршрутизация)
DS работает близко к продакту и инженерам: цикл «гипотеза → A/B → выкатка» сжатый. Актуальные вакансии — на карьерной странице Ozon.
Информация основана на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с HR (30-40 минут)
Знакомство:
- Опыт DS, ключевые проекты
- В какую команду заходишь (RecSys / Search / Forecasting / Fraud)
- Готовность к высокому темпу (Ozon известен скоростью)
Питч 90 секунд.
2. Алгоритмы / coding (60 минут)
LeetCode Medium. Python — основной язык. Иногда задача на pandas (агрегация, групп-би, мердж).
Сложность ниже, чем в Яндексе, но не пропускают без алгоритмов. Подготовка: Python live-coding.
3. ML-теория (60-90 минут)
Стандартный набор:
- Линейные модели, бустинг
- Метрики classification и regression
- Cross-validation, time-based split (важно для прогноза спроса)
- Bias-variance, регуляризация
Особенность Ozon — могут спросить про rankings:
- NDCG@k, MRR, MAP — какую когда
- Learning to rank: pointwise, pairwise, listwise — как работают
- Sparse features, click models
Подготовка: NDCG ranking metrics, классификация на собесе DS.
4. Доменные кейсы (60-90 минут)
Здесь — ML-разговор про задачу команды.
RecSys:
- «Спроектируй RecSys для главной страницы Ozon»
- «Холодный старт нового товара: как ранжировать»
- «Как учитывать недавнее поведение vs долгосрочные предпочтения»
Forecasting:
- «Прогноз спроса на товар X на 4 недели вперёд. Какие модели, какие фичи»
- «Как учитывать сезонность, акции, маркетинговые кампании»
- «Что делать с новыми SKU без истории»
Search:
- «Как сделать поиск по запросу „белые кроссовки"»
- «Как мерить качество поиска»
- «Re-ranking после ANN-retrieval»
Подготовка: RecSys system design, time series forecasting для DS.
5. A/B и метрики (45-60 минут)
E-commerce A/B имеет свои особенности:
- Метрики: GMV, conversion, average order, retention
- Network effects (одинаковый товар у двух юзеров — общие данные)
- Long-term effects (рекомендация повлияла на retention за 30 дней)
- Marketplace-specific: balance продавцов и покупателей
Подготовка: A/B для DS, GMV в SQL.
6. Поведенческое + фит
STAR. Фокус:
- Скорость принятия решений
- Работа в кросс-функциональной команде (DS + PM + Engineer)
- Решение в условиях неопределённости
- Кейс эксперимента, который не сработал
Особенности по направлениям
| Направление | Что важно |
|---|---|
| RecSys | Two-tower models, ANN, sequence models, cold start |
| Search ranking | Learning to rank, click models, NDCG, relevance |
| Demand forecasting | Time-series, hierarchical forecasting, sparse SKU |
| Антифрод | Graph features, anomaly detection, real-time |
| Логистика | ETA, маршрутизация, optimization |
| Ценообразование | Elasticity, dynamic pricing, RL |
| Marketing / CRM | Uplift modeling, segmentation, churn |
Что Ozon ценит в DS
- Маркетплейс-mindset. Понимание двусторонней площадки (buyer / seller): что хорошо для одной стороны, может быть плохо для другой
- Масштаб. Решения должны работать на сотнях миллионов SKU и десятках миллионов клиентов. Brute-force подходы не масштабируются
- Скорость до прода. Не «обучил модель за 6 месяцев», а «запустил MVP, замерил A/B, итерировал»
- A/B-дисциплина. Каждая модель — через эксперимент. Offline-метрики не достаточны
- Production-mindset. Code в git, тесты, мониторинг, retraining
Как готовиться: план
- Алгоритмы Medium. LeetCode 50-100 задач Python.
- ML-теория. Бустинг глубоко (CatBoost / LightGBM устройство), классификация, регрессия, ranking.
- RecSys / Search / Forecasting. Depend on направление — изучи конкретные методы.
- A/B для e-com. GMV, AOV, retention, marketplace effects.
- ML System Design. 3-5 кейсов на масштабе e-com.
- STAR-истории. Скорость, кросс-функционал, неопределённость.
Частые ошибки
- Игнор маркетплейс-специфики. Решения «для buyer» без оглядки на seller — слабо
- Только offline-метрика. NDCG 0.7 без A/B-результата на проде — недостаточно
- Cold start не продуман. Маркетплейс постоянно получает новые SKU и новых продавцов. Без решения cold start — слабо
- Не учесть scale. «Я считаю похожесть всех пар товаров» — не работает на 200M SKU. ANN, embedding spaces — обязательно
- Forecasting на одном уровне. Маркетплейс требует hierarchical forecasting (по категориям, регионам), не отдельно SKU
Связанные темы
- Собеседование на Data Scientist
- Собеседование на PM в Ozon
- RecSys system design
- NDCG: ranking-метрики на собесе DS
- Time series forecasting для аналитика
FAQ
Сколько раундов в Ozon для DS?
Обычно 4-5: HR → coding → ML-теория → доменный кейс → фит. Срок 3-5 недель.
Что важнее: RecSys или forecasting?
Зависит от команды. Если идёшь в Marketplace Search — RecSys и ranking. В Supply — forecasting. Смотри вакансию.
Берут ли в Ozon без e-com опыта?
Да, если сильная ML-база. E-com специфику можно подучить за несколько недель.
Чем Ozon отличается от Wildberries?
Ozon исторически тёплее к публичной коммуникации (доклады, статьи), сильнее research-фон. Wildberries — более закрытый.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.