Собеседование на Data Scientist в Авито
Содержание:
Почему Авито — особенный работодатель для DS
Авито — крупнейший классифайд в России. DS направления: ранжирование поиска по вертикалям (auto, realty, services), модели монетизации (premium объявления), antifraud (детекция фейковых объявлений), recommender systems, текстовые модели (модерация, классификация), CV (анализ фотографий объявлений).
Особенность: классифайд — это длинный цикл сделки (недели/месяцы), нет direct purchase в продукте, офлайн-метрики сложнее. Авито исторически имеет одну из самых сильных DS-культур в РФ — публикации, выступления на конференциях, в команде многие выпускники ШАД. Актуальные вакансии — на странице карьеры Авито.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация. Особенности Авито:
- Опыт с классифайдами / маркетплейсами / search ranking
- Знание ML на больших данных
- В какое направление интересно (ranking / fraud / recsys / monetization / NLP)
2. Алгоритмы и Python (45-60 минут)
Live-coding: алгоритмы LeetCode Medium, Python (pandas, NumPy). Уровень — сильнее многих компаний.
3. SQL (45 минут)
Live-coding SQL на классифайд-данных: воронки контактов, retention объявлений, RFM продавцов.
4. ML-теория (60-90 минут)
Главный этап. Темы:
- Gradient boosting глубоко (CatBoost — изначально Yandex/Авито)
- Learning-to-rank (pairwise, listwise, LambdaMART)
- Метрики: NDCG, MAP, MRR, contact rate, time-to-contact
- Несбалансированные классы (fraud), text classification
- A/B на длинном цикле сделки, attribution
5. ML system design (60-90 минут)
«Спроектируй ranking для поиска авто», «модель fraud для новых объявлений», «классификация категорий объявлений».
6. Поведенческое (45 минут)
STAR-вопросы.
7. Финал с лидом
Стратегический разговор.
Что Авито ценит в DS
- Сильные основы CS и алгоритмов. Live-coding жёстче, чем во многих компаниях
- Learning-to-rank. Авито — поисковая компания. Ranking — основа
- Опыт с классифайд-доменом. Двухсторонний рынок + длинный цикл сделки + рекламная монетизация
- Эксперименты. A/B на длинном цикле, causal inference
- Готовность к R&D. Открытие новых подходов, эксперименты
Типичные задачи и кейсы
- «Спроектируй ranking для поиска квартир. Фичи, модель, метрики»
- «Successful contact rate — критерий успеха. Как измерить, если сделки длинные?»
- «Новое объявление: нет истории, нет фоток сравнения. Как ранжировать?»
- «Спроектируй модель детекции дублирующихся объявлений»
- «10% юзеров ищут «спам» — детектируй и фильтруй»
Как готовиться: план
- LeetCode Medium. 50-100 задач. Авито любит алгоритмы.
- Learning-to-rank. Pairwise, listwise. LambdaMART, RankNet.
- Gradient boosting. CatBoost / LightGBM глубоко.
- A/B на длинном цикле. CUPED, switchback, holdouts.
- Метрики классифайдов. Contact rate, time-to-contact, successful deals.
- NLP basics. Embeddings, BERT, классификация — для NLP-команд.
Частые ошибки
- Слабые алгоритмы. Авито — одна из самых требовательных компаний к live-coding
- Игнорировать ranking-специфику. Не путать regression metrics (MSE) с ranking metrics (NDCG)
- Не учитывать длинный цикл. Метрика через неделю не показывает успех модели на длинном цикле
- Зубрить инструменты без понимания. Авито ценит глубокое понимание
Связанные темы
- Собеседование на Data Scientist
- Собеседование на DS в Yandex
- Собеседование на DS в Ozon
- CUPED для снижения дисперсии
- Causal inference: причинность vs корреляция
FAQ
Сколько этапов в собеседовании на DS в Авито?
Обычно 5-7: рекрутер → алгоритмы → SQL → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.
Какой уровень алгоритмов?
LeetCode Medium стабильно. Hash maps, two pointers, DP, graphs. Hard — реже, но возможны.
Нужен ли ШАД?
Желателен. Сильная база CS даёт большое преимущество. Если без — упор на pet-projects и публикации.
Спрашивают ли deep learning?
В NLP, CV и ranking командах — да. В других — преимущественно classical ML.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.