Собеседование на Data Scientist в Яндексе
Содержание:
Почему Яндекс — особенный работодатель для DS
Яндекс — один из сильнейших ML-работодателей в России. Десятки команд по направлениям: Поиск (ranking, query understanding), Реклама (CTR-prediction, bidding), Go (ETA, dispatching), Маркет (рекомендации, поиск товаров), Музыка (рекомендательные системы), Алиса/GPT (NLP), Браузер (anti-fraud). Каждая команда — свой стек и культура.
Особенность: масштаб. ML-модели в Яндексе обучают на миллиардах событий, deploy катают через канарейки и A/B на миллионах юзеров. Это означает требования к DS: понимание production ML, MLOps, scaling. Многие выпускники ШАД работают именно здесь. Актуальные вакансии — на странице найма Яндекса.
Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.
Этапы собеседования
1. Скрининг с рекрутером (30 минут)
Опыт, мотивация, ожидания. Особенности Яндекса:
- Опыт с ML-моделями на больших данных
- Знакомство с инструментами (Python, CatBoost, PyTorch)
- В какое направление интересно — Поиск / Реклама / Go / Маркет
2. Live-coding (45-60 минут)
Алгоритмы и Python. Уровень — не самый высокий из IT-собесов, но решить нужно за время. Темы: arrays, hash maps, dynamic programming, графы. Использование стандартной библиотеки Python.
Подготовка — Python на собеседовании, типовые задачи в тренажёре.
3. SQL и работа с данными (45 минут)
Запросы на reality-data: оконные функции, CTE, агрегаты, retention. Не Leetcode-сложно, но быстро. Подробнее — SQL на собеседовании.
4. ML-теория и статистика (60-90 минут)
Главный этап для DS. Темы:
- Bias-variance, overfitting, регуляризация
- Логистическая регрессия, gradient boosting, нейросети — теория и intuition
- AUC-ROC, F1, precision-recall, выбор метрики под задачу
- Проверка гипотез, доверительные интервалы, bootstrap
- A/B-тесты: размер выборки, MDE, peeking, CUPED
- Causal inference: причинность vs корреляция
Подготовка: статистика, A/B, DS hub.
5. ML system design (60 минут)
«Спроектируй рекомендации для Музыки», «классификатор fraud для Маркета», «модель оттока для Кинопоиска». Структура ответа: данные → фичи → модель → метрика offline → A/B-дизайн → MLOps.
6. Продуктовый и поведенческий
«Метрика модели хорошая offline, но в A/B нет роста бизнес-метрики — что делать?» Plus STAR-вопросы про проекты, конфликты, неудачи.
7. Финал с руководителем
Стратегический разговор: видение карьеры, fit с командой.
Что Яндекс ценит в DS
- ML на масштабе. Опыт с большими данными, distributed training, оптимизация inference
- Умение объяснять. ML-теория должна быть понятна не только тебе, но и продакту/менеджеру
- Эксперименты как родной язык. A/B, causal inference, статистика — фундамент
- Скорость и инициатива. Плоская структура, ожидается, что DS сам генерирует гипотезы
- Хорошие фундаментальные знания. Linear algebra, calculus, probability — на уровне университета (ШАД ценится)
Типичные задачи и кейсы
- «Спроектируй модель прогноза CTR для рекламы. Какие фичи, какая модель, как валидировать?»
- «AUC модели на validation вырос с 0.78 до 0.81. Это значимо?»
- «У нас 100M событий в день. Как обучить модель за разумное время?»
- «Recommender показал прирост NDCG offline, но A/B показал падение revenue. Гипотезы?»
- «Модель отвечает 50ms, нужно 10ms. План оптимизации?»
Как готовиться: план
- ML-теория. Bias-variance, регуляризация, метрики, выбор модели. Хорошая база — «ISLR» или курс Хасти/Тибширани.
- Статистика и A/B. На уровне Senior — CUPED, switchback, network effects.
- ML system design. Прорешать 10+ кейсов вслух (рекомендации / fraud / ranking / NLP).
- SQL и Python. До автоматизма. Тренироваться в SQL-разделе и Python-разделе.
- Контекст Яндекса. Открой публичные тех-блоги Yandex по ML.
- Pet-projects. Один проект end-to-end, желательно с production-deploy.
Частые ошибки
- Зубрить формулы без интуиции. Формула gradient descent — все знают, но «почему learning rate важен и как выбрать» — отдельный навык
- Не уметь объяснить просто. DS, который говорит на жаргоне с менеджером, никому не нужен
- Игнорировать A/B. Offline-метрика модели — только полпути. A/B-тест в продакшен — основа решения
- Слабые SQL/Python. На уровне «понимаю» — мало. Нужно решать без ошибок и быстро
- Не учитывать масштаб. Решение для 10K событий не работает для 10B. Готовь mental model оптимизации
Связанные темы
- Собеседование на Data Scientist
- Собеседование на DS в Т-Банке
- Causal inference: причинность vs корреляция
- CUPED для снижения дисперсии
- ML system design на собесе DS
FAQ
Сколько этапов в собеседовании на DS в Яндексе?
Обычно 5-7: рекрутер → live-coding → SQL → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.
Нужен ли ШАД (Школа анализа данных)?
Желателен, но не обязателен. ШАД даёт сильную ML-базу. Если без ШАД — упор на эквивалентный опыт (магистратура по ML, профессиональный опыт, публикации).
Спрашивают ли deep learning?
Зависит от команды. В Поиске, Алисе, Браузере — да. В Маркете, Go — преимущественно classical ML (gradient boosting, ranking). Уточняй на скрининге.
Какие зарплаты у DS в Яндексе?
Конкурентные на рынке, грейды Junior → Senior. Точные цифры зависят от команды и опыта.
Это официальная информация?
Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.