Собеседование на Data Scientist в Яндексе

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Яндекс — особенный работодатель для DS

Яндекс — экосистема, в которой ML внутри почти каждого продукта: ранжирование Поиска, аукцион в Рекламе, RecSys в Музыке и Маркете, Алиса/YandexGPT, ETA в Go. Команды независимые, и фокус сильно различается: где-то рисёрч (CatBoost вырос отсюда), где-то прикладной applied ML с тонной A/B.

Общий знаменатель — упор на масштаб (петабайты данных, миллиарды событий в день) и инженерную дисциплину: ML-код доезжает до прода через нормальный pipeline, не из ноутбука. Актуальные вакансии — на странице найма Яндекса.

Информация основана на публичных источниках и опыте кандидатов. Команды Яндекса используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30-45 минут)

Стандартные вопросы про опыт и мотивацию. Особенности Яндекса:

  • Какие задачи ML решал и какой был эффект (в метриках)
  • Какой стек: классика, deep learning, RecSys, NLP, CV
  • Понимаешь ли отличие applied ML от research

Питч на 90 секунд: продукт, твоя задача, главная метрика и достижение.

2. Алгоритмы / coding (60-90 минут)

Базовый этап для большинства команд. LeetCode-стиль: задачи на структуры данных и алгоритмы.

Что спрашивают:

  • Динамическое программирование, графы, бинарный поиск
  • Сложности O(n log n) и оптимизации
  • Иногда мини-задача про Pandas / SQL

Это «прошёл порог» — без него дальше не пропускают. Подготовка: алгоритмы на собесе DS, Python live-coding.

3. ML-теория (60-90 минут)

Главный «жёсткий» этап. Глубокие вопросы про основы:

  • Bias-variance trade-off, overfitting, регуляризация
  • Линейные модели, логистическая регрессия с выводом
  • Деревья и градиентный бустинг (CatBoost — внутренний продукт Яндекса, любят детально)
  • Метрики: ROC-AUC, PR-AUC, log-loss, MAE/RMSE — когда какую использовать
  • Кросс-валидация, leak, time-based split

Подготовка: ROC-AUC vs PR-AUC, precision-recall, boosting vs bagging.

4. ML System Design (60-90 минут)

Запрос на проектирование. Например:

  • «Сделай ранжирование результатов Поиска»
  • «Спроектируй RecSys для Кинопоиска»
  • «Как построишь систему детекции спама в Почте»

Что оценивают:

  • Постановка задачи: данные, метрики, baseline → улучшения
  • Online/offline evaluation (A/B vs holdout)
  • Production-учёт: latency, retraining, мониторинг

Подготовка: ML system design, RecSys system design.

5. Поведенческое и фит с командой (45-60 минут)

STAR-вопросы. У Яндекса свой акцент:

  • Расскажи про эксперимент, который не сработал
  • Как принял решение, когда данные противоречили друг другу
  • Конфликт с PM/инженером — как разрешил
  • Самый сложный технический долг, который чинил

6. Финал с руководителем

Стратегический разговор. Готовь умные вопросы про:

  • Куда движется команда через 12-24 месяца
  • Соотношение research vs applied
  • Pipeline ML-моделей в продакшен
  • Свобода эксперимента: сколько фичей за квартал реально доезжает

Особенности по командам

Команда Что важно
Поиск Learning to rank, фичи документов и запросов, A/B на огромном масштабе
Реклама CTR/CR prediction, аукционы, optimization под ROAS
Алиса / YandexGPT NLP, generative models, RLHF, evals для LLM
Маркет RecSys для e-com, прогноз спроса, размерные подсказки
Go ETA prediction, supply/demand модели, дискеры
Облако ML-platform внутри: serving, training-infra, AutoML
CV / Беспилотники Image/video models, sensor fusion

Что Яндекс ценит в DS

  • Метрики выше «красивых» моделей. «Какой gain в офлайн-метрике и какой в A/B» — основной вопрос. Без числа решения не принимаются
  • Понимание baseline. Не «сразу нейронка», а сначала логрег/бустинг, потом сложнее. Простые модели часто выигрывают
  • Инженерная зрелость. Код в Git, тесты, оформление pipeline. Ноутбучные эксперименты — это начало, не итог
  • Привязка к продукту. Не «обучил модель», а «улучшил метрику X на Y% и довёз до прода»
  • Готовность спорить. Аргумент с данными — нормально, со стейкхолдером — тоже
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. Алгоритмы. 100+ LeetCode Medium, Python. Без этого порог не проходишь.
  2. ML-теория глубоко. Bias-variance, регуляризация, ROC-AUC vs PR-AUC, k-fold vs time series CV.
  3. A/B и метрики. A/B для DS, MDE, CUPED.
  4. ML System Design. 5-7 кейсов вслух с диктофоном.
  5. Стек целевой команды. Идёшь в Алису — учи NLP и LLM-evals. В Маркет — RecSys и ranking. В Go — ETA и operational ML.
  6. STAR-истории. 6-8 готовых: успех, провал, конфликт, решение без данных.

Частые ошибки

  • Слабые алгоритмы. Яндекс не пропускает без них даже сильного по ML кандидата
  • «Сразу нейронка». На вопрос «какую модель возьмёшь для классификации» начинать с Transformer — слабо. Бустинг → нейронка, если выигрывает
  • Метрика без бизнес-привязки. «У меня ROC-AUC 0.85» — недостаточно. «Дало +3% к CTR на A/B» — нормально
  • Игнор продакшена. На ML System Design не сказать про latency, retraining, мониторинг — провал
  • Учебниковая теория без интуиции. «L1 регуляризация делает фичи нулями, потому что субградиент» — формально, но без понимания «зачем» — слабо

Связанные темы

FAQ

Сколько раундов в Яндексе для DS?

Обычно 5-6: рекрутер → алгоритмы → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.

Нужны ли алгоритмы Medium-Hard уровня?

Medium стабильно. Hard редко. Без алгоритмов вообще — не пройти первый технический этап.

Берут ли в Яндекс DS без PhD?

Да, в applied-командах ML PhD не требуется. В research-командах (например, для рекомендаций или NLP) PhD ускоряет процесс.

Что важнее: ML-теория или практика?

В Яндексе нужны обе. Теории не пропустят без LeetCode, и наоборот: красивые модели без понимания основ выглядят слабо.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Конкретные команды могут отличаться. Уточняйте у рекрутера.