Собеседование на Data Scientist в Ozon

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Ozon — особенный работодатель для DS

Ozon — один из двух крупнейших маркетплейсов России. DS-направление широкое: рекомендательные системы (карточка товара, главная, поиск), ранжирование в поиске, прогноз спроса, демпинг и pricing, fraud detection, churn-prediction продавцов. Объёмы — миллиарды событий в день.

Особенность: маркетплейс — двухсторонний рынок. ML-модель ранжирования влияет одновременно на конверсию покупателей и доходы продавцов. DS в Ozon живёт с этим компромиссом: показать топ-1 покупателю это лучше для CR, но может бить по диверсификации продавцов. На собесе ждут понимания этой системности. Актуальные вакансии — на странице карьеры Ozon.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30-45 минут)

Опыт, мотивация. Особенности Ozon:

  • Опыт с e-commerce / маркетплейсами или рекомендательными системами
  • Знание ML на табличных данных
  • В какую команду интересно (рекомендации / ranking / pricing / fraud)

2. SQL и Python (45-60 минут)

Live-coding: SQL на маркетплейс-данных (когорты, retention, RFM), Python (pandas, ML pipeline). SQL, Python.

3. ML-теория и метрики (60-90 минут)

Главный этап. Темы:

  • Логистическая регрессия, gradient boosting (CatBoost — фаворит в e-commerce)
  • Ranking-задачи: NDCG, MAP, MRR, learning-to-rank
  • Рекомендательные системы: collaborative filtering, content-based, hybrid, two-tower модели
  • Метрики offline vs online: почему хороший NDCG не всегда даёт рост revenue
  • Cold start problem для новых товаров / продавцов / юзеров
  • A/B-тесты в e-commerce и сетевые эффекты

Подготовка: статистика, DS hub.

4. ML system design (60 минут)

«Спроектируй рекомендации для главной страницы Ozon», «модель прогноза спроса для FBO», «определи fraud-продавцов».

Структура: данные → фичи → модель → offline-метрика → A/B-дизайн → MLOps → cold start → масштабирование.

5. Поведенческое (45 минут)

STAR-вопросы.

6. Финал с лидом направления

Стратегический разговор.

Что Ozon ценит в DS

  • Опыт с табличным ML. CatBoost / XGBoost / LightGBM на масштабе — основа для большинства задач
  • Recommender systems. Понимание collaborative filtering, embeddings, ranking. Two-tower модели — must-have для senior
  • Маркетплейс-контекст. Понимаешь двухсторонний рынок, network effects, эффект диверсификации
  • A/B на масштабе. A/B на 50M юзеров — это не A/B на 5K. Cluster-randomization, switchback, interference
  • Скорость. Релизы недельные, эксперименты постоянные

Типичные задачи и кейсы

  • «Спроектируй модель рекомендаций для карточки товара. Какие фичи, какая модель, как валидировать?»
  • «NDCG модели offline вырос с 0.42 до 0.46, A/B показал падение GMV. Гипотезы?»
  • «Cold start: добавили новую категорию (детское). Как делать рекомендации?»
  • «У нас 1M активных продавцов. Спрогнозируй, кто уйдёт в ближайшие 30 дней»
  • «Запускаем динамическое ценообразование. Какие метрики мониторить?»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Recommender systems. Курсы Andrew Ng, статьи по two-tower и matrix factorization.
  2. Ranking. NDCG, MAP, learning-to-rank (LambdaMART). Понимание классических подходов.
  3. Gradient boosting. CatBoost / LightGBM / XGBoost — мастер уровень. Tuning, регуляризация, feature importance.
  4. A/B и causal inference. Маркетплейс — сетевые эффекты. CUPED, switchback, cluster randomization.
  5. SQL. Когорты, RFM-сегментация, retention — стандартный набор для собеса в e-commerce.
  6. Pet-projects. Recommender или ranking-задача с открытыми данными (MovieLens, Amazon Reviews).

Частые ошибки

  • Зубрить ML без e-commerce контекста. В маркетплейсе важно понимать unit-economics, take rate, retention обеих сторон
  • Игнорировать cold start. Любая модель рекомендаций сталкивается с новыми юзерами / товарами. Готовь ответы
  • Не различать offline и online метрики. Хороший NDCG ≠ рост GMV. Готовь объяснение
  • Игнорировать двухсторонний рынок. Решение для покупателей часто бьёт по продавцам. PM и DS должны учитывать оба
  • Слабый A/B на масштабе. На уровне Junior — стандартный A/B. На Senior — switchback, interference, partial rollout

Связанные темы

FAQ

Сколько этапов в собеседовании на DS в Ozon?

Обычно 5-6: рекрутер → SQL/Python → ML-теория → ML system design → поведенческое → финал. Срок 3-6 недель.

Нужен ли опыт с рекомендательными системами?

Желателен для команд рекомендаций / ranking. Для других DS-команд (pricing, fraud) — нет. Если приходишь из других доменов — упор на готовность освоить специфику.

Какие алгоритмы спрашивают чаще?

Gradient boosting (CatBoost/LightGBM/XGBoost) — фундамент. Для рекомендаций — матричная факторизация, two-tower, embeddings. Deep learning — в отдельных командах.

Чем DS в Ozon отличается от Wildberries?

Оба активно растят ML-команды. Конкретные различия в процессах и стеке уточняй у рекрутера и инсайдеров — публичных сравнений мало.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.