13 мая 2026 г.·6 мин чтения

Собеседование на Data Scientist в Яндексе

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Содержание:

Почему Яндекс — особенный работодатель для DS
Этапы собеседования
Особенности по командам
Что Яндекс ценит в DS
Как готовиться: план
Частые ошибки
Связанные темы
FAQ

Почему Яндекс — особенный работодатель для DS

Яндекс — экосистема, в которой ML внутри почти каждого продукта: ранжирование Поиска, аукцион в Рекламе, RecSys в Музыке и Маркете, Алиса/YandexGPT, ETA в Go. Команды независимые, и фокус сильно различается: где-то рисёрч (CatBoost вырос отсюда), где-то прикладной applied ML с тонной A/B.

Общий знаменатель — упор на масштаб (петабайты данных, миллиарды событий в день) и инженерную дисциплину: ML-код доезжает до прода через нормальный pipeline, не из ноутбука. Актуальные вакансии — на странице найма Яндекса.

Информация основана на публичных источниках и опыте кандидатов. Команды Яндекса используют разные процессы — уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30-45 минут)

Стандартные вопросы про опыт и мотивацию. Особенности Яндекса:

Какие задачи ML решал и какой был эффект (в метриках)
Какой стек: классика, deep learning, RecSys, NLP, CV
Понимаешь ли отличие applied ML от research

Питч на 90 секунд: продукт, твоя задача, главная метрика и достижение.

2. Алгоритмы / coding (60-90 минут)

Базовый этап для большинства команд. LeetCode-стиль: задачи на структуры данных и алгоритмы.

Что спрашивают:

Динамическое программирование, графы, бинарный поиск
Сложности O(n log n) и оптимизации
Иногда мини-задача про Pandas / SQL

Это «прошёл порог» — без него дальше не пропускают. Подготовка: алгоритмы на собесе DS, Python live-coding.

3. ML-теория (60-90 минут)

Главный «жёсткий» этап. Глубокие вопросы про основы:

Bias-variance trade-off, overfitting, регуляризация
Линейные модели, логистическая регрессия с выводом
Деревья и градиентный бустинг (CatBoost — внутренний продукт Яндекса, любят детально)
Метрики: ROC-AUC, PR-AUC, log-loss, MAE/RMSE — когда какую использовать
Кросс-валидация, leak, time-based split

Подготовка: ROC-AUC vs PR-AUC, precision-recall, boosting vs bagging.

4. ML System Design (60-90 минут)

Запрос на проектирование. Например:

«Сделай ранжирование результатов Поиска»
«Спроектируй RecSys для Кинопоиска»
«Как построишь систему детекции спама в Почте»

Что оценивают:

Постановка задачи: данные, метрики, baseline → улучшения
Online/offline evaluation (A/B vs holdout)
Production-учёт: latency, retraining, мониторинг

Подготовка: ML system design, RecSys system design.

5. Поведенческое и фит с командой (45-60 минут)

STAR-вопросы. У Яндекса свой акцент:

Расскажи про эксперимент, который не сработал
Как принял решение, когда данные противоречили друг другу
Конфликт с PM/инженером — как разрешил
Самый сложный технический долг, который чинил

6. Финал с руководителем

Стратегический разговор. Готовь умные вопросы про:

Куда движется команда через 12-24 месяца
Соотношение research vs applied
Pipeline ML-моделей в продакшен
Свобода эксперимента: сколько фичей за квартал реально доезжает

Особенности по командам

Команда	Что важно
Поиск	Learning to rank, фичи документов и запросов, A/B на огромном масштабе
Реклама	CTR/CR prediction, аукционы, optimization под ROAS
Алиса / YandexGPT	NLP, generative models, RLHF, evals для LLM
Маркет	RecSys для e-com, прогноз спроса, размерные подсказки
Go	ETA prediction, supply/demand модели, дискеры
Облако	ML-platform внутри: serving, training-infra, AutoML
CV / Беспилотники	Image/video models, sensor fusion

Что Яндекс ценит в DS

Метрики выше «красивых» моделей. «Какой gain в офлайн-метрике и какой в A/B» — основной вопрос. Без числа решения не принимаются
Понимание baseline. Не «сразу нейронка», а сначала логрег/бустинг, потом сложнее. Простые модели часто выигрывают
Инженерная зрелость. Код в Git, тесты, оформление pipeline. Ноутбучные эксперименты — это начало, не итог
Привязка к продукту. Не «обучил модель», а «улучшил метрику X на Y% и довёз до прода»
Готовность спорить. Аргумент с данными — нормально, со стейкхолдером — тоже

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Как готовиться: план

Алгоритмы. 100+ LeetCode Medium, Python. Без этого порог не проходишь.
ML-теория глубоко. Bias-variance, регуляризация, ROC-AUC vs PR-AUC, k-fold vs time series CV.
A/B и метрики. A/B для DS, MDE, CUPED.
ML System Design. 5-7 кейсов вслух с диктофоном.
Стек целевой команды. Идёшь в Алису — учи NLP и LLM-evals. В Маркет — RecSys и ranking. В Go — ETA и operational ML.
STAR-истории. 6-8 готовых: успех, провал, конфликт, решение без данных.

Частые ошибки

Слабые алгоритмы. Яндекс не пропускает без них даже сильного по ML кандидата
«Сразу нейронка». На вопрос «какую модель возьмёшь для классификации» начинать с Transformer — слабо. Бустинг → нейронка, если выигрывает
Метрика без бизнес-привязки. «У меня ROC-AUC 0.85» — недостаточно. «Дало +3% к CTR на A/B» — нормально
Игнор продакшена. На ML System Design не сказать про latency, retraining, мониторинг — провал
Учебниковая теория без интуиции. «L1 регуляризация делает фичи нулями, потому что субградиент» — формально, но без понимания «зачем» — слабо

Связанные темы

FAQ

Сколько раундов в Яндексе для DS?

Обычно 5-6: рекрутер → алгоритмы → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.

Нужны ли алгоритмы Medium-Hard уровня?

Medium стабильно. Hard редко. Без алгоритмов вообще — не пройти первый технический этап.

Берут ли в Яндекс DS без PhD?

Да, в applied-командах ML PhD не требуется. В research-командах (например, для рекомендаций или NLP) PhD ускоряет процесс.

Что важнее: ML-теория или практика?

В Яндексе нужны обе. Теории не пропустят без LeetCode, и наоборот: красивые модели без понимания основ выглядят слабо.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Конкретные команды могут отличаться. Уточняйте у рекрутера.