Собеседование на Data Scientist в Ozon
Содержание:
Почему Ozon — особенный работодатель для DS
Ozon — один из двух крупнейших маркетплейсов России. DS-направление широкое: рекомендательные системы (карточка товара, главная, поиск), ранжирование в поиске, прогноз спроса, демпинг и pricing, fraud detection, churn-prediction продавцов. Объёмы — миллиарды событий в день.
Особенность: маркетплейс — двухсторонний рынок. ML-модель ранжирования влияет одновременно на конверсию покупателей и доходы продавцов. DS в Ozon живёт с этим компромиссом: показать топ-1 покупателю это лучше для CR, но может бить по диверсификации продавцов. На собесе ждут понимания этой системности. Актуальные вакансии — на странице карьеры Ozon.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30-45 минут)
Опыт, мотивация. Особенности Ozon:
- Опыт с e-commerce / маркетплейсами или рекомендательными системами
- Знание ML на табличных данных
- В какую команду интересно (рекомендации / ranking / pricing / fraud)
2. SQL и Python (45-60 минут)
Live-coding: SQL на маркетплейс-данных (когорты, retention, RFM), Python (pandas, ML pipeline). SQL, Python.
3. ML-теория и метрики (60-90 минут)
Главный этап. Темы:
- Логистическая регрессия, gradient boosting (CatBoost — фаворит в e-commerce)
- Ranking-задачи: NDCG, MAP, MRR, learning-to-rank
- Рекомендательные системы: collaborative filtering, content-based, hybrid, two-tower модели
- Метрики offline vs online: почему хороший NDCG не всегда даёт рост revenue
- Cold start problem для новых товаров / продавцов / юзеров
- A/B-тесты в e-commerce и сетевые эффекты
Подготовка: статистика, DS hub.
4. ML system design (60 минут)
«Спроектируй рекомендации для главной страницы Ozon», «модель прогноза спроса для FBO», «определи fraud-продавцов».
Структура: данные → фичи → модель → offline-метрика → A/B-дизайн → MLOps → cold start → масштабирование.
5. Поведенческое (45 минут)
STAR-вопросы.
6. Финал с лидом направления
Стратегический разговор.
Что Ozon ценит в DS
- Опыт с табличным ML. CatBoost / XGBoost / LightGBM на масштабе — основа для большинства задач
- Recommender systems. Понимание collaborative filtering, embeddings, ranking. Two-tower модели — must-have для senior
- Маркетплейс-контекст. Понимаешь двухсторонний рынок, network effects, эффект диверсификации
- A/B на масштабе. A/B на 50M юзеров — это не A/B на 5K. Cluster-randomization, switchback, interference
- Скорость. Релизы недельные, эксперименты постоянные
Типичные задачи и кейсы
- «Спроектируй модель рекомендаций для карточки товара. Какие фичи, какая модель, как валидировать?»
- «NDCG модели offline вырос с 0.42 до 0.46, A/B показал падение GMV. Гипотезы?»
- «Cold start: добавили новую категорию (детское). Как делать рекомендации?»
- «У нас 1M активных продавцов. Спрогнозируй, кто уйдёт в ближайшие 30 дней»
- «Запускаем динамическое ценообразование. Какие метрики мониторить?»
Как готовиться: план
- Recommender systems. Курсы Andrew Ng, статьи по two-tower и matrix factorization.
- Ranking. NDCG, MAP, learning-to-rank (LambdaMART). Понимание классических подходов.
- Gradient boosting. CatBoost / LightGBM / XGBoost — мастер уровень. Tuning, регуляризация, feature importance.
- A/B и causal inference. Маркетплейс — сетевые эффекты. CUPED, switchback, cluster randomization.
- SQL. Когорты, RFM-сегментация, retention — стандартный набор для собеса в e-commerce.
- Pet-projects. Recommender или ranking-задача с открытыми данными (MovieLens, Amazon Reviews).
Частые ошибки
- Зубрить ML без e-commerce контекста. В маркетплейсе важно понимать unit-economics, take rate, retention обеих сторон
- Игнорировать cold start. Любая модель рекомендаций сталкивается с новыми юзерами / товарами. Готовь ответы
- Не различать offline и online метрики. Хороший NDCG ≠ рост GMV. Готовь объяснение
- Игнорировать двухсторонний рынок. Решение для покупателей часто бьёт по продавцам. PM и DS должны учитывать оба
- Слабый A/B на масштабе. На уровне Junior — стандартный A/B. На Senior — switchback, interference, partial rollout
Связанные темы
- Собеседование на Data Scientist
- Собеседование на DS в Яндексе
- Собеседование на DS в Т-Банке
- CUPED для снижения дисперсии
- Causal inference: причинность vs корреляция
FAQ
Сколько этапов в собеседовании на DS в Ozon?
Обычно 5-6: рекрутер → SQL/Python → ML-теория → ML system design → поведенческое → финал. Срок 3-6 недель.
Нужен ли опыт с рекомендательными системами?
Желателен для команд рекомендаций / ranking. Для других DS-команд (pricing, fraud) — нет. Если приходишь из других доменов — упор на готовность освоить специфику.
Какие алгоритмы спрашивают чаще?
Gradient boosting (CatBoost/LightGBM/XGBoost) — фундамент. Для рекомендаций — матричная факторизация, two-tower, embeddings. Deep learning — в отдельных командах.
Чем DS в Ozon отличается от Wildberries?
Оба активно растят ML-команды. Конкретные различия в процессах и стеке уточняй у рекрутера и инсайдеров — публичных сравнений мало.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.