Собеседование на Data Scientist

Готовишься к собесу Data Scientist?
ML, Deep Learning, NLP, MLOps — вопросы с разборами в Telegram
Тренировать DS в Telegram

Что спрашивают на собесе у Data Scientist

Собес на Data Scientist проверяет глубокое знание машинного обучения, статистики, A/B-тестов и умение применить это к продуктовым задачам. От Junior DS ждут уверенной базы по ML и статистике, от Senior — умения проектировать ML-системы end-to-end и обосновывать бизнес-impact.

В отличие от Data Analyst (где фокус на SQL и метриках), DS-собес делает акцент на ML-теорию (overfitting, bias-variance, регуляризация, метрики качества модели) и продвинутую статистику (Causal Inference, продвинутые A/B, причинно-следственные методы).

Этапы собеседования

1. Скрининг с рекрутером (20-30 минут). Опыт, мотивация, ожидания по зарплате. Уточняют направление (ML-Engineer / Research / Applied / Product DS).

2. SQL и базовое программирование (45-60 минут). Live-coding SQL и Python: pandas, numpy, базовый алгоритм. Подробнее — раздел SQL и Python.

3. Статистика и теория ML (60 минут). Распределения, проверка гипотез, регрессия, классификация, метрики, переобучение, регуляризация. Раздел статистики.

4. Продвинутый ML и проектирование систем (60 минут). ML system design: «спроектируй рекомендации для маркетплейса», «классификатор fraud», «модель оттока». От Senior — детально, от Junior — общими словами.

5. Кейс-интервью и продуктовый раунд (60 минут). Кейсы на стыке ML и продуктовой логики: «как замеришь эффект новой модели?», «когда A/B не работает?». Часто разбирают causal inference.

6. Поведенческое (45 минут). STAR-вопросы про проекты, конфликты, провалы.

7. Финал с CDO / Head of DS. Стратегические вопросы, fit с командой.

Главные темы по разделам

Machine Learning

Статистика и эксперименты

SQL и Python для DS

Продуктовая аналитика для DS

Системный дизайн ML

Гайды по компаниям

Особенности собеса DS по компаниям, где сильные DS-команды:

Примеры вопросов с разбором

1. Что такое bias-variance trade-off?

Любая модель имеет два источника ошибки: bias (систематическая ошибка из-за слишком простой модели) и variance (нестабильность из-за слишком сложной модели на конкретной выборке). Простая модель (линейная регрессия) — высокий bias, низкий variance. Сложная (deep neural network) — низкий bias, высокий variance. Идеальный баланс минимизирует общую ошибку.

2. Как поймёшь, что модель переобучилась?

Метрика на train сильно лучше, чем на validation/test. Если train accuracy 95%, а validation 70% — overfitting. Решения: больше данных, регуляризация (L1/L2), упрощение модели (меньше параметров), early stopping в нейросетях, dropout, ансамбли.

3. Какую метрику выберешь для задачи fraud detection?

Fraud — это сильно несбалансированный класс (1-2% положительных). Accuracy неинформативна — модель, всегда предсказывающая «не fraud», даст 98% accuracy. Лучше: precision-recall curve, F1, или для бизнеса — precision при заданном recall (например, precision при recall=80%). Подробнее — accuracy vs F1.

4. Когда A/B-тест не работает?

Сценарии: (1) сетевые эффекты (соцсети — действия одних влияют на других); (2) долгий эффект (метрика проявляется через месяцы); (3) маленькая выборка с большим MDE; (4) контрольная группа загрязнена (юзеры видят обе версии). Альтернативы: switchback, geo-experiments, difference-in-differences.

5. Как обоснуешь, что внедрение твоей модели даст impact бизнесу?

Шаги: (1) метрика — что именно улучшим (revenue, retention, conversion); (2) baseline — текущий уровень; (3) ожидаемый эффект — на основе offline-метрик модели и предполагаемой связи с бизнес-метрикой; (4) A/B-тест — как проверим в реальности; (5) масштабируемость — что будет при катке на 100%.

Другие темы

Как готовиться

  1. ML и статистика — фундамент. Без понимания bias-variance, регуляризации, CV, метрик качества — никак. Книги: Bishop, «ISLR», курсы StatQuest на YouTube.

  2. A/B и эксперименты на advanced-уровне. Не только размер выборки, но и CUPED, switchback, causal inference. На уровне Senior DS — обязательно.

  3. Кейсы вслух. ML system design — это устный формат. Тренируй вслух: «спроектируй систему рекомендаций» — 30 минут структурированно.

  4. SQL до автоматизма. На DS-собесах SQL не сложнее, чем у аналитика, но решать быстрее и без ошибок.

  5. Pet-projects. Один-два проекта с end-to-end ML-pipeline (от данных до A/B-теста реального продукта).

FAQ

Сколько математики нужно для DS-собеса?

База: линейная алгебра (матрицы, собственные значения), мат. анализ (производные, градиент), теория вероятностей (распределения, мат. ожидание, дисперсия), статистика (проверка гипотез, регрессия). На Junior — формулы знают, на Senior — глубже понимают.

Чем DS отличается от ML-Engineer?

DS — больше исследование, гипотезы, эксперименты, продуктовый impact. ML-Engineer — production-deploy, MLOps, инфраструктура, latency, scaling. На практике многие DS делают и то, и другое.

Нужен ли deep learning для каждой роли DS?

Нет. Большинство DS-задач решаются классическими алгоритмами (gradient boosting, logistic regression). Deep learning нужен в специфических доменах: CV, NLP, рекомендательные системы на больших данных.

Сколько готовиться к DS-собесу?

Junior: 3-6 месяцев интенсивной подготовки после базы. Middle: 1-3 месяца. Senior: фокус на ML system design и продуктовые кейсы, технический бэкграунд уже есть.