Собеседование на Data Scientist в Яндексе
Содержание:
Почему Яндекс — особенный работодатель для DS
Яндекс — экосистема, в которой ML внутри почти каждого продукта: ранжирование Поиска, аукцион в Рекламе, RecSys в Музыке и Маркете, Алиса/YandexGPT, ETA в Go. Команды независимые, и фокус сильно различается: где-то рисёрч (CatBoost вырос отсюда), где-то прикладной applied ML с тонной A/B.
Общий знаменатель — упор на масштаб (петабайты данных, миллиарды событий в день) и инженерную дисциплину: ML-код доезжает до прода через нормальный pipeline, не из ноутбука. Актуальные вакансии — на странице найма Яндекса.
Информация основана на публичных источниках и опыте кандидатов. Команды Яндекса используют разные процессы — уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30-45 минут)
Стандартные вопросы про опыт и мотивацию. Особенности Яндекса:
- Какие задачи ML решал и какой был эффект (в метриках)
- Какой стек: классика, deep learning, RecSys, NLP, CV
- Понимаешь ли отличие applied ML от research
Питч на 90 секунд: продукт, твоя задача, главная метрика и достижение.
2. Алгоритмы / coding (60-90 минут)
Базовый этап для большинства команд. LeetCode-стиль: задачи на структуры данных и алгоритмы.
Что спрашивают:
- Динамическое программирование, графы, бинарный поиск
- Сложности O(n log n) и оптимизации
- Иногда мини-задача про Pandas / SQL
Это «прошёл порог» — без него дальше не пропускают. Подготовка: алгоритмы на собесе DS, Python live-coding.
3. ML-теория (60-90 минут)
Главный «жёсткий» этап. Глубокие вопросы про основы:
- Bias-variance trade-off, overfitting, регуляризация
- Линейные модели, логистическая регрессия с выводом
- Деревья и градиентный бустинг (CatBoost — внутренний продукт Яндекса, любят детально)
- Метрики: ROC-AUC, PR-AUC, log-loss, MAE/RMSE — когда какую использовать
- Кросс-валидация, leak, time-based split
Подготовка: ROC-AUC vs PR-AUC, precision-recall, boosting vs bagging.
4. ML System Design (60-90 минут)
Запрос на проектирование. Например:
- «Сделай ранжирование результатов Поиска»
- «Спроектируй RecSys для Кинопоиска»
- «Как построишь систему детекции спама в Почте»
Что оценивают:
- Постановка задачи: данные, метрики, baseline → улучшения
- Online/offline evaluation (A/B vs holdout)
- Production-учёт: latency, retraining, мониторинг
Подготовка: ML system design, RecSys system design.
5. Поведенческое и фит с командой (45-60 минут)
STAR-вопросы. У Яндекса свой акцент:
- Расскажи про эксперимент, который не сработал
- Как принял решение, когда данные противоречили друг другу
- Конфликт с PM/инженером — как разрешил
- Самый сложный технический долг, который чинил
6. Финал с руководителем
Стратегический разговор. Готовь умные вопросы про:
- Куда движется команда через 12-24 месяца
- Соотношение research vs applied
- Pipeline ML-моделей в продакшен
- Свобода эксперимента: сколько фичей за квартал реально доезжает
Особенности по командам
| Команда | Что важно |
|---|---|
| Поиск | Learning to rank, фичи документов и запросов, A/B на огромном масштабе |
| Реклама | CTR/CR prediction, аукционы, optimization под ROAS |
| Алиса / YandexGPT | NLP, generative models, RLHF, evals для LLM |
| Маркет | RecSys для e-com, прогноз спроса, размерные подсказки |
| Go | ETA prediction, supply/demand модели, дискеры |
| Облако | ML-platform внутри: serving, training-infra, AutoML |
| CV / Беспилотники | Image/video models, sensor fusion |
Что Яндекс ценит в DS
- Метрики выше «красивых» моделей. «Какой gain в офлайн-метрике и какой в A/B» — основной вопрос. Без числа решения не принимаются
- Понимание baseline. Не «сразу нейронка», а сначала логрег/бустинг, потом сложнее. Простые модели часто выигрывают
- Инженерная зрелость. Код в Git, тесты, оформление pipeline. Ноутбучные эксперименты — это начало, не итог
- Привязка к продукту. Не «обучил модель», а «улучшил метрику X на Y% и довёз до прода»
- Готовность спорить. Аргумент с данными — нормально, со стейкхолдером — тоже
Как готовиться: план
- Алгоритмы. 100+ LeetCode Medium, Python. Без этого порог не проходишь.
- ML-теория глубоко. Bias-variance, регуляризация, ROC-AUC vs PR-AUC, k-fold vs time series CV.
- A/B и метрики. A/B для DS, MDE, CUPED.
- ML System Design. 5-7 кейсов вслух с диктофоном.
- Стек целевой команды. Идёшь в Алису — учи NLP и LLM-evals. В Маркет — RecSys и ranking. В Go — ETA и operational ML.
- STAR-истории. 6-8 готовых: успех, провал, конфликт, решение без данных.
Частые ошибки
- Слабые алгоритмы. Яндекс не пропускает без них даже сильного по ML кандидата
- «Сразу нейронка». На вопрос «какую модель возьмёшь для классификации» начинать с Transformer — слабо. Бустинг → нейронка, если выигрывает
- Метрика без бизнес-привязки. «У меня ROC-AUC 0.85» — недостаточно. «Дало +3% к CTR на A/B» — нормально
- Игнор продакшена. На ML System Design не сказать про latency, retraining, мониторинг — провал
- Учебниковая теория без интуиции. «L1 регуляризация делает фичи нулями, потому что субградиент» — формально, но без понимания «зачем» — слабо
Связанные темы
- Собеседование на Data Scientist
- Собеседование на PM в Яндексе
- ML system design на собесе DS
- Алгоритмы на собесе DS
- ROC-AUC vs PR-AUC на собесе DS
FAQ
Сколько раундов в Яндексе для DS?
Обычно 5-6: рекрутер → алгоритмы → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.
Нужны ли алгоритмы Medium-Hard уровня?
Medium стабильно. Hard редко. Без алгоритмов вообще — не пройти первый технический этап.
Берут ли в Яндекс DS без PhD?
Да, в applied-командах ML PhD не требуется. В research-командах (например, для рекомендаций или NLP) PhD ускоряет процесс.
Что важнее: ML-теория или практика?
В Яндексе нужны обе. Теории не пропустят без LeetCode, и наоборот: красивые модели без понимания основ выглядят слабо.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Конкретные команды могут отличаться. Уточняйте у рекрутера.