13 мая 2026 г.·4 мин чтения

Собеседование на Data Scientist в Wildberries

Проверь себя · 1/3разбор после ответа

В A/B тесте всего по 25 пользователей на группу, конверсия 0/25 в контроле и 2/25 в варианте. Какой подход к проверке разницы долей обычно более аккуратен при такой малой выборке?

Содержание:

Почему Wildberries — особенный работодатель для DS
Этапы собеседования
Что Wildberries ценит в DS
Типичные задачи и кейсы
Как готовиться: план
Частые ошибки
Связанные темы
FAQ

Почему Wildberries — особенный работодатель для DS

Wildberries — крупнейший маркетплейс России. DS работает с гигантскими объёмами поведенческих данных. Команды: рекомендательные системы (карточка товара, главная, поиск), ранжирование поиска, прогноз спроса, demand forecasting, антифрод, customer churn для продавцов.

Особенность: маркетплейс — двухсторонний рынок (покупатели + продавцы). Рекомендации должны балансировать конверсию покупателя и диверсификацию для продавцов. Прогноз спроса учитывает сезонность, регион, ассортимент. На собесе ждут понимания этой системности. Актуальные вакансии — на странице карьеры Wildberries.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Особенности WB:

Опыт с маркетплейсами / e-commerce ML
Знание рекомендательных систем или ранжирования
В какую команду интересно (recs / ranking / pricing / fraud)

2. SQL и Python (45-60 минут)

Live-coding SQL: воронки, retention, RFM-сегментация. Python: pandas, базовый ML pipeline.

3. ML-теория и метрики (60-90 минут)

Главный этап. Темы:

Gradient boosting (CatBoost — фаворит в e-commerce), feature engineering
Метрики ranking (NDCG, MAP, MRR), классификации (AUC, F1)
Несбалансированные классы (fraud), cold start
A/B-тесты на масштабе и сетевые эффекты
Прогноз спроса (ARIMA, gradient boosting, neural)

Подготовка: DS hub, статистика.

4. ML system design (60 минут)

«Спроектируй recommender для карточки товара», «прогноз спроса для FBO», «детекция fraud-продавцов».

5. Поведенческое (45 минут)

STAR-вопросы.

6. Финал с лидом

Стратегический разговор.

Что Wildberries ценит в DS

Recommender systems. Two-tower, collaborative filtering, embeddings — must
Маркетплейс-контекст. Двухсторонний рынок, network effects, cold start
Опыт с большими объёмами. Миллиарды событий в день
Скорость работы. Релизы недельные, эксперименты постоянные
Базовый SQL и Python. Без них никуда

Типичные задачи и кейсы

«Спроектируй модель рекомендаций для главной WB. Фичи, модель, метрики»
«AUC модели поиска вырос с 0.78 до 0.82, A/B показал падение CR. Гипотезы?»
«Cold start для новых товаров (только что добавлены): как обработать?»
«Спрогнозируй спрос на новый сезонный товар без истории»
«У нас 500K активных продавцов. Какие 1000 из них рисковые (churn)?»

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Как готовиться: план

Recommender systems. Курсы и материалы по collaborative filtering, two-tower моделям.
Gradient boosting. CatBoost / LightGBM глубоко. Tuning, feature engineering.
Метрики ranking. NDCG, MAP, MRR. Offline vs online метрики.
A/B на масштабе. CUPED, сетевые эффекты, switchback.
SQL. Когорты, RFM, retention. SQL-раздел.
STAR-истории. 6-8 готовых.

Частые ошибки

Зубрить ML без e-commerce контекста. На маркетплейсе важно понимать unit-economics
Игнорировать cold start. Новые товары / юзеры — постоянная задача
Не различать offline / online метрики. Хороший NDCG не гарантирует рост GMV
Игнорировать seller-side. Продавцы — тоже клиенты WB
Слабый A/B на масштабе. На уровне senior — switchback, сетевые эффекты

Связанные темы

FAQ

Сколько этапов в собеседовании на DS в WB?

Обычно 5-6: рекрутер → SQL/Python → ML-теория → ML system design → поведенческое → финал. Срок 3-5 недель.

Нужен ли опыт с маркетплейсами?

Желателен. Если из e-commerce / классифайдов — упор на понимание двухстороннего рынка.

Какие алгоритмы спрашивают?

Gradient boosting (CatBoost / LightGBM / XGBoost) — must. Для рекомендаций — collaborative filtering, two-tower, embeddings. Deep learning — в отдельных командах.

Спрашивают ли deep learning?

В рекомендационных и поисковых командах — да. В прогнозе спроса и fraud — преимущественно classical ML.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.