12 мая 2026 г.·6 мин чтения

Собеседование на Data Scientist в Яндексе

Проверь себя · 1/3разбор после ответа

Что означает контролировать FDR (доля ложных открытий среди отвергнутых гипотез) на уровне 0.1 в наборе гипотез?

Содержание:

Почему Яндекс — особенный работодатель для DS
Этапы собеседования
Что Яндекс ценит в DS
Типичные задачи и кейсы
Как готовиться: план
Частые ошибки
Связанные темы
FAQ

Почему Яндекс — особенный работодатель для DS

Яндекс — один из сильнейших ML-работодателей в России. Десятки команд по направлениям: Поиск (ranking, query understanding), Реклама (CTR-prediction, bidding), Go (ETA, dispatching), Маркет (рекомендации, поиск товаров), Музыка (рекомендательные системы), Алиса/GPT (NLP), Браузер (anti-fraud). Каждая команда — свой стек и культура.

Особенность: масштаб. ML-модели в Яндексе обучают на миллиардах событий, deploy катают через канарейки и A/B на миллионах юзеров. Это означает требования к DS: понимание production ML, MLOps, scaling. Многие выпускники ШАД работают именно здесь. Актуальные вакансии — на странице найма Яндекса.

Информация в статье основана на публичных источниках и опыте кандидатов. Формат собеседования отличается по командам и грейдам. Уточняйте у рекрутера.

Этапы собеседования

1. Скрининг с рекрутером (30 минут)

Опыт, мотивация, ожидания. Особенности Яндекса:

Опыт с ML-моделями на больших данных
Знакомство с инструментами (Python, CatBoost, PyTorch)
В какое направление интересно — Поиск / Реклама / Go / Маркет

2. Live-coding (45-60 минут)

Алгоритмы и Python. Уровень — не самый высокий из IT-собесов, но решить нужно за время. Темы: arrays, hash maps, dynamic programming, графы. Использование стандартной библиотеки Python.

Подготовка — Python на собеседовании, типовые задачи в тренажёре.

3. SQL и работа с данными (45 минут)

Запросы на reality-data: оконные функции, CTE, агрегаты, retention. Не Leetcode-сложно, но быстро. Подробнее — SQL на собеседовании.

4. ML-теория и статистика (60-90 минут)

Главный этап для DS. Темы:

Bias-variance, overfitting, регуляризация
Логистическая регрессия, gradient boosting, нейросети — теория и intuition
AUC-ROC, F1, precision-recall, выбор метрики под задачу
Проверка гипотез, доверительные интервалы, bootstrap
A/B-тесты: размер выборки, MDE, peeking, CUPED
Causal inference: причинность vs корреляция

Подготовка: статистика, A/B, DS hub.

5. ML system design (60 минут)

«Спроектируй рекомендации для Музыки», «классификатор fraud для Маркета», «модель оттока для Кинопоиска». Структура ответа: данные → фичи → модель → метрика offline → A/B-дизайн → MLOps.

6. Продуктовый и поведенческий

«Метрика модели хорошая offline, но в A/B нет роста бизнес-метрики — что делать?» Plus STAR-вопросы про проекты, конфликты, неудачи.

7. Финал с руководителем

Стратегический разговор: видение карьеры, fit с командой.

Что Яндекс ценит в DS

ML на масштабе. Опыт с большими данными, distributed training, оптимизация inference
Умение объяснять. ML-теория должна быть понятна не только тебе, но и продакту/менеджеру
Эксперименты как родной язык. A/B, causal inference, статистика — фундамент
Скорость и инициатива. Плоская структура, ожидается, что DS сам генерирует гипотезы
Хорошие фундаментальные знания. Linear algebra, calculus, probability — на уровне университета (ШАД ценится)

Типичные задачи и кейсы

«Спроектируй модель прогноза CTR для рекламы. Какие фичи, какая модель, как валидировать?»
«AUC модели на validation вырос с 0.78 до 0.81. Это значимо?»
«У нас 100M событий в день. Как обучить модель за разумное время?»
«Recommender показал прирост NDCG offline, но A/B показал падение revenue. Гипотезы?»
«Модель отвечает 50ms, нужно 10ms. План оптимизации?»

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Как готовиться: план

ML-теория. Bias-variance, регуляризация, метрики, выбор модели. Хорошая база — «ISLR» или курс Хасти/Тибширани.
Статистика и A/B. На уровне Senior — CUPED, switchback, network effects.
ML system design. Прорешать 10+ кейсов вслух (рекомендации / fraud / ranking / NLP).
SQL и Python. До автоматизма. Тренироваться в SQL-разделе и Python-разделе.
Контекст Яндекса. Открой публичные тех-блоги Yandex по ML.
Pet-projects. Один проект end-to-end, желательно с production-deploy.

Частые ошибки

Зубрить формулы без интуиции. Формула gradient descent — все знают, но «почему learning rate важен и как выбрать» — отдельный навык
Не уметь объяснить просто. DS, который говорит на жаргоне с менеджером, никому не нужен
Игнорировать A/B. Offline-метрика модели — только полпути. A/B-тест в продакшен — основа решения
Слабые SQL/Python. На уровне «понимаю» — мало. Нужно решать без ошибок и быстро
Не учитывать масштаб. Решение для 10K событий не работает для 10B. Готовь mental model оптимизации

Связанные темы

FAQ

Сколько этапов в собеседовании на DS в Яндексе?

Обычно 5-7: рекрутер → live-coding → SQL → ML-теория → ML system design → поведенческое → финал. Срок 4-8 недель.

Нужен ли ШАД (Школа анализа данных)?

Желателен, но не обязателен. ШАД даёт сильную ML-базу. Если без ШАД — упор на эквивалентный опыт (магистратура по ML, профессиональный опыт, публикации).

Спрашивают ли deep learning?

Зависит от команды. В Поиске, Алисе, Браузере — да. В Маркете, Go — преимущественно classical ML (gradient boosting, ranking). Уточняй на скрининге.

Какие зарплаты у DS в Яндексе?

Конкурентные на рынке, грейды Junior → Senior. Точные цифры зависят от команды и опыта.

Это официальная информация?

Этапы основаны на публичных источниках и опыте кандидатов. Уточняйте у рекрутера.