Собеседование на Data Scientist в Яндексе

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Почему Яндекс — особенный работодатель для DS

Яндекс — один из сильнейших ML-работодателей в России. Десятки команд по направлениям: Поиск (ranking, query understanding), Реклама (CTR-prediction, bidding), Go (ETA, dispatching), Маркет (рекомендации, поиск товаров), Музыка (рекомендательные системы), Алиса/GPT (NLP), Браузер (anti-fraud). Каждая команда — свой стек и культура.

Особенность: масштаб. ML-модели в Яндексе обучают на миллиардах событий, deploy катают через канарейки и A/B на миллионах юзеров. Это означает требования к DS: понимание production ML, MLOps, scaling. Многие выпускники ШАД работают именно здесь. Актуальные вакансии — на странице найма Яндекса.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация, ожидания. Особенности Яндекса:

  • Опыт с ML-моделями на больших данных
  • Знакомство с инструментами (Python, CatBoost, PyTorch)
  • В какое направление интересно — Поиск / Реклама / Go / Маркет

2. Live-coding (45-60 минут)

Алгоритмы и Python. Уровень — не самый высокий из IT-собесов, но решить нужно за время. Темы: arrays, hash maps, dynamic programming, графы. Использование стандартной библиотеки Python.

Подготовка — Python на собеседовании, типовые задачи в тренажёре.

3. SQL и работа с данными (45 минут)

Запросы на reality-data: оконные функции, CTE, агрегаты, retention. Не Leetcode-сложно, но быстро. Подробнее — SQL на собеседовании.

4. ML-теория и статистика (60-90 минут)

Главный этап для DS. Темы:

  • Bias-variance, overfitting, регуляризация
  • Логистическая регрессия, gradient boosting, нейросети — теория и intuition
  • AUC-ROC, F1, precision-recall, выбор метрики под задачу
  • Проверка гипотез, доверительные интервалы, bootstrap
  • A/B-тесты: размер выборки, MDE, peeking, CUPED
  • Causal inference: причинность vs корреляция

Подготовка: статистика, A/B, DS hub.

5. ML system design (60 минут)

«Спроектируй рекомендации для Музыки», «классификатор fraud для Маркета», «модель оттока для Кинопоиска». Структура ответа: данные → фичи → модель → метрика offline → A/B-дизайн → MLOps.

6. Продуктовый и поведенческий

«Метрика модели хорошая offline, но в A/B нет роста бизнес-метрики — что делать?» Plus STAR-вопросы про проекты, конфликты, неудачи.

7. Финал с руководителем

Стратегический разговор: видение карьеры, fit с командой.

Что Яндекс ценит в DS

  • ML на масштабе. Опыт с большими данными, distributed training, оптимизация inference
  • Умение объяснять. ML-теория должна быть понятна не только тебе, но и продакту/менеджеру
  • Эксперименты как родной язык. A/B, causal inference, статистика — фундамент
  • Скорость и инициатива. Плоская структура, ожидается, что DS сам генерирует гипотезы
  • Хорошие фундаментальные знания. Linear algebra, calculus, probability — на уровне университета (ШАД ценится)

Типичные задачи и кейсы

  • «Спроектируй модель прогноза CTR для рекламы. Какие фичи, какая модель, как валидировать?»
  • «AUC модели на validation вырос с 0.78 до 0.81. Это значимо?»
  • «У нас 100M событий в день. Как обучить модель за разумное время?»
  • «Recommender показал прирост NDCG offline, но A/B показал падение revenue. Гипотезы?»
  • «Модель отвечает 50ms, нужно 10ms. План оптимизации?»
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Как готовиться: план

  1. ML-теория. Bias-variance, регуляризация, метрики, выбор модели. Хорошая база — «ISLR» или курс Хасти/Тибширани.
  2. Статистика и A/B. На уровне Senior — CUPED, switchback, network effects.
  3. ML system design. Прорешать 10+ кейсов вслух (рекомендации / fraud / ranking / NLP).
  4. SQL и Python. До автоматизма. Тренироваться в SQL-разделе и Python-разделе.
  5. Контекст Яндекса. Открой публичные тех-блоги Yandex по ML.
  6. Pet-projects. Один проект end-to-end, желательно с production-deploy.

Частые ошибки

  • Зубрить формулы без интуиции. Формула gradient descent — все знают, но «почему learning rate важен и как выбрать» — отдельный навык
  • Не уметь объяснить просто. DS, который говорит на жаргоне с менеджером, никому не нужен
  • Игнорировать A/B. Offline-метрика модели — только полпути. A/B-тест в продакшен — основа решения
  • Слабые SQL/Python. На уровне «понимаю» — мало. Нужно решать без ошибок и быстро
  • Не учитывать масштаб. Решение для 10K событий не работает для 10B. Готовь mental model оптимизации

Связанные темы

FAQ

Сколько этапов в собеседовании на DS в Яндексе?

Обычно 5-7: рекрутер → live-coding → SQL → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.

Нужен ли ШАД (Школа анализа данных)?

Желателен, но не обязателен. ШАД даёт сильную ML-базу. Если без ШАД — упор на эквивалентный опыт (магистратура по ML, профессиональный опыт, публикации).

Спрашивают ли deep learning?

Зависит от команды. В Поиске, Алисе, Браузере — да. В Маркете, Go — преимущественно classical ML (gradient boosting, ranking). Уточняй на скрининге.

Какие зарплаты у DS в Яндексе?

Конкурентные на рынке, грейды Junior → Senior. Точные цифры зависят от команды и опыта.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.