6 мая 2026 г.·6 мин чтения

Подготовка к собеседованию Data Scientist

Готовишься к собесу Data Scientist?

ML, Deep Learning, NLP, MLOps — вопросы с разборами в Telegram

Содержание:

Чем DS отличается от аналитика и ML-инженера
Этапы найма
Темы, которые проверяют
План на 4 недели
Что любят в разных компаниях
Частые ошибки
FAQ

Чем DS отличается от аналитика и ML-инженера

Data Scientist — мост между аналитикой и ML-инженерией. Аналитик строит дашборды и отвечает на вопросы; DS строит модели и проверяет гипотезы; ML-инженер деплоит модели в прод. На практике границы размыты, и вакансии «DS» иногда означают любое из трёх.

Что обычно ждут от DS на собесе:

Понимание классического ML (линейные модели, деревья, градиентный бустинг, кластеризация)
Базы deep learning (нейросети, CNN, transformers)
Знание метрик качества и валидации
Python для ML (numpy, pandas, sklearn, иногда PyTorch/TensorFlow)
Понимание MLOps на уровне «как мы деплоим модель и мониторим её в продакшене»
Бизнес-чутьё — какую модель выбрать под задачу, как объяснить результат стейкхолдерам

Этапы найма

Типичный найм DS в IT-компании или R&D-команде занимает 3–6 недель и включает 4–6 этапов.

1. Скрининг с рекрутером

20–30 минут. Опыт, проекты, ожидания.

2. Технический скрининг (онлайн-тест или live)

60 минут. Задачи на ML-теорию (вопросы вроде «в чём разница между bagging и boosting», «как работает кросс-валидация»), базовый Python, SQL.

3. Live-coding на Python

60–90 минут. Чаще всего — задача на feature engineering и обучение простой модели на готовом датасете. Иногда LeetCode-стиль.

4. ML-интервью

60–90 минут. Глубже по моделям, метрикам, валидации, частые edge cases. Иногда дают кейс «у нас такие данные, такая задача — что бы ты сделал» и проверяют процесс мышления.

5. Take-home или презентация проекта

Часто просят рассказать про прошлый ML-проект: задача, данные, выбор модели, метрики, deployment, результат для бизнеса.

6. Финал с нанимающим менеджером / тимлидом

Behavioral, культурный фит, обсуждение, как DS встраивается в команду продукта.

Темы, которые проверяют

Python для ML

numpy: операции с массивами, broadcasting
pandas: feature engineering, мержи, оконные операции
sklearn: pipelines, transformers, cross-validation
joblib для сохранения моделей

Классический ML

Линейные модели: регрессия, регуляризация (L1, L2), elastic net
Logistic regression: интерпретация коэффициентов, multiclass через one-vs-rest
Деревья и градиентный бустинг: XGBoost, LightGBM, CatBoost. Когда что
Кластеризация: k-means, DBSCAN, иерархическая. Метрики оценки кластеров
Feature engineering: масштабирование, кодирование категорий, обработка пропусков

Подробно — Классический ML на собесе DS.

Метрики и валидация

Классификация: accuracy, precision, recall, F1, ROC AUC, PR AUC, log loss
Регрессия: RMSE, MAE, MAPE, R²
Когда нельзя использовать accuracy (несбалансированные классы)
Кросс-валидация: K-Fold, Stratified, TimeSeriesSplit
Train/val/test split — почему важно
Утечки данных (data leakage)

Deep Learning

Базовый MLP, обратное распространение
CNN: сверточные слои, pooling, transfer learning
RNN/LSTM/GRU: для последовательностей
Transformers: attention, self-attention, encoder/decoder
Регуляризация: dropout, batch normalization
Optimizers: SGD, Adam, AdamW. Learning rate schedule

Подробно — Deep Learning на собесе DS.

NLP

Токенизация: word, subword, BPE, WordPiece
Word embeddings: Word2Vec, GloVe, fastText
Transformers: BERT, GPT, T5
Fine-tuning vs prompt engineering
Базовые задачи: классификация текста, NER, summarization, QA

Подробно — NLP на собесе DS.

MLOps

Pipelines: обучение, валидация, деплой
Serving: batch vs online inference, latency requirements
Мониторинг: data drift, model drift
A/B тестирование моделей в проде
Feature store, эксперимент-трекинг (MLflow, Weights & Biases)

Подробно — MLOps на собесе DS.

Готовишься к собесу Data Scientist?

ML, Deep Learning, NLP, MLOps — вопросы с разборами в Telegram

Тренировать DS в Telegram

План на 4 недели

Неделя	Фокус	Что делать
1	Python + классический ML	Прорешать 30+ задач по Python для ML, повторить sklearn, базовые модели
2	Метрики + валидация	Прокачать понимание ROC AUC, log loss, кросс-валидации. Решить задачи на data leakage
3	Deep Learning + NLP	Базы CNN, RNN, transformers. Понять fine-tuning. Сделать 1 мини-проект на huggingface
4	MLOps + презентация проекта	Подготовить презентацию своего лучшего проекта. Mock-интервью

Закрепляющая практика — Карьерник: 6 DS-тем, вопросы по ML, deep learning, NLP, MLOps в формате квиза.

Что любят в разных компаниях

Яндекс, Sber AI, X5 — глубокий классический ML, метрики, валидация. На junior — feature engineering и линейные модели глубоко
Tinkoff, Ozon, Avito — рекомендации и ранжирование, метрики ranking, online-эксперименты
Sber AI Lab, VK — deep learning и transformers, fine-tuning LLM
Стартапы и небольшие команды — практичность, общий уровень в ML, бизнес-понимание задачи

Частые ошибки

Знать только теорию. На собесе спросят: «У нас такая задача — что бы ты сделал». Если в ответе только «обучу логистическую регрессию» без EDA, без feature engineering, без понимания бизнес-контекста — слабый ответ.

Не знать метрики. Использовать accuracy на несбалансированных данных, не понимать, что такое ROC AUC интуитивно, путать precision и recall — типичные ошибки джунов.

Игнорировать data leakage. Самая дорогая ошибка в реальной работе и на собесе. Если в ответе на задачу не упоминается train/test split и преобразования fit_transform vs transform — это сразу видно.

Перегружать deep learning. На junior-DS почти всегда классический ML и feature engineering решают задачу. Кандидат, который сразу хочет нейросеть на табличных данных — слабый сигнал.

Не уметь интерпретировать модель. «Я обучил CatBoost, accuracy 95%» — недостаточно. SHAP, feature importance, понимание решений модели — must-have для middle+.

Слабая презентация прошлого проекта. Если вы не можете за 5 минут рассказать про задачу, данные, модель, метрики, бизнес-эффект — это сигнал, что проекты были слабые или вы их не понимаете.

FAQ

Сколько готовиться к собесу DS с нуля?

С математическим бэкграундом и Python — 4–6 месяцев. Без бэкграунда — 1–2 года. ML без понимания linear algebra и теории вероятностей — это карго-культ.

Нужно ли знать LLM и transformers для junior DS?

Базы — да (что такое attention, fine-tuning, prompt engineering). Глубоко — для NLP-команд обязательно, для других ролей опционально.

Сколько проектов в портфолио нужно?

2–3 крепких проекта с полным циклом (задача → EDA → модель → деплой → результат). Лучше меньше глубоких, чем больше поверхностных.

Это официальная информация?

Нет. Статья основана на публичных источниках и опыте кандидатов. Процессы найма меняются, актуальные требования — на карьерной странице компании.