13 мая 2026 г.·4 мин чтения

Собеседование на Data Scientist в Авито

Проверь себя · 1/3разбор после ответа

Два набора имеют одинаковое среднее, равное 5: A = 5, 5, 5 и B = 1, 5, 9. У какого набора больше стандартное отклонение?

Содержание:

Почему Авито — особенный работодатель для DS
Этапы собеседования
Что Авито ценит в DS
Типичные задачи и кейсы
Как готовиться: план
Частые ошибки
Связанные темы
FAQ

Почему Авито — особенный работодатель для DS

Авито — крупнейший классифайд в России. DS направления: ранжирование поиска по вертикалям (auto, realty, services), модели монетизации (premium объявления), antifraud (детекция фейковых объявлений), recommender systems, текстовые модели (модерация, классификация), CV (анализ фотографий объявлений).

Особенность: классифайд — это длинный цикл сделки (недели/месяцы), нет direct purchase в продукте, офлайн-метрики сложнее. Авито исторически имеет одну из самых сильных DS-культур в РФ — публикации, выступления на конференциях, в команде многие выпускники ШАД. Актуальные вакансии — на странице карьеры Авито.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация. Особенности Авито:

Опыт с классифайдами / маркетплейсами / search ranking
Знание ML на больших данных
В какое направление интересно (ranking / fraud / recsys / monetization / NLP)

2. Алгоритмы и Python (45-60 минут)

Live-coding: алгоритмы LeetCode Medium, Python (pandas, NumPy). Уровень — сильнее многих компаний.

3. SQL (45 минут)

Live-coding SQL на классифайд-данных: воронки контактов, retention объявлений, RFM продавцов.

4. ML-теория (60-90 минут)

Главный этап. Темы:

Gradient boosting глубоко (CatBoost — изначально Yandex/Авито)
Learning-to-rank (pairwise, listwise, LambdaMART)
Метрики: NDCG, MAP, MRR, contact rate, time-to-contact
Несбалансированные классы (fraud), text classification
A/B на длинном цикле сделки, attribution

5. ML system design (60-90 минут)

«Спроектируй ranking для поиска авто», «модель fraud для новых объявлений», «классификация категорий объявлений».

6. Поведенческое (45 минут)

STAR-вопросы.

7. Финал с лидом

Стратегический разговор.

Что Авито ценит в DS

Сильные основы CS и алгоритмов. Live-coding жёстче, чем во многих компаниях
Learning-to-rank. Авито — поисковая компания. Ranking — основа
Опыт с классифайд-доменом. Двухсторонний рынок + длинный цикл сделки + рекламная монетизация
Эксперименты. A/B на длинном цикле, causal inference
Готовность к R&D. Открытие новых подходов, эксперименты

Типичные задачи и кейсы

«Спроектируй ranking для поиска квартир. Фичи, модель, метрики»
«Successful contact rate — критерий успеха. Как измерить, если сделки длинные?»
«Новое объявление: нет истории, нет фоток сравнения. Как ранжировать?»
«Спроектируй модель детекции дублирующихся объявлений»
«10% юзеров ищут «спам» — детектируй и фильтруй»

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Как готовиться: план

LeetCode Medium. 50-100 задач. Авито любит алгоритмы.
Learning-to-rank. Pairwise, listwise. LambdaMART, RankNet.
Gradient boosting. CatBoost / LightGBM глубоко.
A/B на длинном цикле. CUPED, switchback, holdouts.
Метрики классифайдов. Contact rate, time-to-contact, successful deals.
NLP basics. Embeddings, BERT, классификация — для NLP-команд.

Частые ошибки

Слабые алгоритмы. Авито — одна из самых требовательных компаний к live-coding
Игнорировать ranking-специфику. Не путать regression metrics (MSE) с ranking metrics (NDCG)
Не учитывать длинный цикл. Метрика через неделю не показывает успех модели на длинном цикле
Зубрить инструменты без понимания. Авито ценит глубокое понимание

Связанные темы

FAQ

Сколько этапов в собеседовании на DS в Авито?

Обычно 5-7: рекрутер → алгоритмы → SQL → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.

Какой уровень алгоритмов?

LeetCode Medium стабильно. Hash maps, two pointers, DP, graphs. Hard — реже, но возможны.

Нужен ли ШАД?

Желателен. Сильная база CS даёт большое преимущество. Если без — упор на pet-projects и публикации.

Спрашивают ли deep learning?

В NLP, CV и ranking командах — да. В других — преимущественно classical ML.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.