Собеседование на Data Scientist в Авито

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Авито — особенный работодатель для DS

Авито — крупнейший классифайд в России. DS направления: ранжирование поиска по вертикалям (auto, realty, services), модели монетизации (premium объявления), antifraud (детекция фейковых объявлений), recommender systems, текстовые модели (модерация, классификация), CV (анализ фотографий объявлений).

Особенность: классифайд — это длинный цикл сделки (недели/месяцы), нет direct purchase в продукте, офлайн-метрики сложнее. Авито исторически имеет одну из самых сильных DS-культур в РФ — публикации, выступления на конференциях, в команде многие выпускники ШАД. Актуальные вакансии — на странице карьеры Авито.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Особенности Авито:

  • Опыт с классифайдами / маркетплейсами / search ranking
  • Знание ML на больших данных
  • В какое направление интересно (ranking / fraud / recsys / monetization / NLP)

2. Алгоритмы и Python (45-60 минут)

Live-coding: алгоритмы LeetCode Medium, Python (pandas, NumPy). Уровень — сильнее многих компаний.

3. SQL (45 минут)

Live-coding SQL на классифайд-данных: воронки контактов, retention объявлений, RFM продавцов.

4. ML-теория (60-90 минут)

Главный этап. Темы:

  • Gradient boosting глубоко (CatBoost — изначально Yandex/Авито)
  • Learning-to-rank (pairwise, listwise, LambdaMART)
  • Метрики: NDCG, MAP, MRR, contact rate, time-to-contact
  • Несбалансированные классы (fraud), text classification
  • A/B на длинном цикле сделки, attribution

5. ML system design (60-90 минут)

«Спроектируй ranking для поиска авто», «модель fraud для новых объявлений», «классификация категорий объявлений».

6. Поведенческое (45 минут)

STAR-вопросы.

7. Финал с лидом

Стратегический разговор.

Что Авито ценит в DS

  • Сильные основы CS и алгоритмов. Live-coding жёстче, чем во многих компаниях
  • Learning-to-rank. Авито — поисковая компания. Ranking — основа
  • Опыт с классифайд-доменом. Двухсторонний рынок + длинный цикл сделки + рекламная монетизация
  • Эксперименты. A/B на длинном цикле, causal inference
  • Готовность к R&D. Открытие новых подходов, эксперименты

Типичные задачи и кейсы

  • «Спроектируй ranking для поиска квартир. Фичи, модель, метрики»
  • «Successful contact rate — критерий успеха. Как измерить, если сделки длинные?»
  • «Новое объявление: нет истории, нет фоток сравнения. Как ранжировать?»
  • «Спроектируй модель детекции дублирующихся объявлений»
  • «10% юзеров ищут «спам» — детектируй и фильтруй»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. LeetCode Medium. 50-100 задач. Авито любит алгоритмы.
  2. Learning-to-rank. Pairwise, listwise. LambdaMART, RankNet.
  3. Gradient boosting. CatBoost / LightGBM глубоко.
  4. A/B на длинном цикле. CUPED, switchback, holdouts.
  5. Метрики классифайдов. Contact rate, time-to-contact, successful deals.
  6. NLP basics. Embeddings, BERT, классификация — для NLP-команд.

Частые ошибки

  • Слабые алгоритмы. Авито — одна из самых требовательных компаний к live-coding
  • Игнорировать ranking-специфику. Не путать regression metrics (MSE) с ranking metrics (NDCG)
  • Не учитывать длинный цикл. Метрика через неделю не показывает успех модели на длинном цикле
  • Зубрить инструменты без понимания. Авито ценит глубокое понимание

Связанные темы

FAQ

Сколько этапов в собеседовании на DS в Авито?

Обычно 5-7: рекрутер → алгоритмы → SQL → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.

Какой уровень алгоритмов?

LeetCode Medium стабильно. Hash maps, two pointers, DP, graphs. Hard — реже, но возможны.

Нужен ли ШАД?

Желателен. Сильная база CS даёт большое преимущество. Если без — упор на pet-projects и публикации.

Спрашивают ли deep learning?

В NLP, CV и ranking командах — да. В других — преимущественно classical ML.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.