Собеседование на Data Scientist
Что спрашивают на собесе у Data Scientist
Собес на Data Scientist проверяет глубокое знание машинного обучения, статистики, A/B-тестов и умение применить это к продуктовым задачам. От Junior DS ждут уверенной базы по ML и статистике, от Senior — умения проектировать ML-системы end-to-end и обосновывать бизнес-impact.
В отличие от Data Analyst (где фокус на SQL и метриках), DS-собес делает акцент на ML-теорию (overfitting, bias-variance, регуляризация, метрики качества модели) и продвинутую статистику (Causal Inference, продвинутые A/B, причинно-следственные методы).
Этапы собеседования
1. Скрининг с рекрутером (20-30 минут). Опыт, мотивация, ожидания по зарплате. Уточняют направление (ML-Engineer / Research / Applied / Product DS).
2. SQL и базовое программирование (45-60 минут). Live-coding SQL и Python: pandas, numpy, базовый алгоритм. Подробнее — раздел SQL и Python.
3. Статистика и теория ML (60 минут). Распределения, проверка гипотез, регрессия, классификация, метрики, переобучение, регуляризация. Раздел статистики.
4. Продвинутый ML и проектирование систем (60 минут). ML system design: «спроектируй рекомендации для маркетплейса», «классификатор fraud», «модель оттока». От Senior — детально, от Junior — общими словами.
5. Кейс-интервью и продуктовый раунд (60 минут). Кейсы на стыке ML и продуктовой логики: «как замеришь эффект новой модели?», «когда A/B не работает?». Часто разбирают causal inference.
6. Поведенческое (45 минут). STAR-вопросы про проекты, конфликты, провалы.
7. Финал с CDO / Head of DS. Стратегические вопросы, fit с командой.
Главные темы по разделам
Machine Learning
- Causal inference: причинность vs корреляция
- Cross-validation и валидация моделей
- AUC-ROC и метрики классификации
- Precision vs Recall и F1
- Uplift modeling
- Time series decomposition
Статистика и эксперименты
- Размер выборки A/B
- P-value простыми словами
- CUPED для снижения дисперсии
- Guardrail-метрики
- Selection bias простыми словами
- Парадокс Симпсона
- Bootstrap-статистика
- Bayesian A/B testing
- Difference-in-Differences
- Propensity score matching
SQL и Python для DS
- Подготовка к SQL-интервью
- Подготовка к Python-интервью
- Pandas-шпаргалка
- Как посчитать LTV в SQL
- Cohort retention в SQL
Продуктовая аналитика для DS
- Метрики продукта на собесе DS
- Шпаргалка метрик продукта
- Юнит-экономика
- Кейсы на собеседовании аналитика
Системный дизайн ML
Гайды по компаниям
Особенности собеса DS по компаниям, где сильные DS-команды:
Примеры вопросов с разбором
1. Что такое bias-variance trade-off?
Любая модель имеет два источника ошибки: bias (систематическая ошибка из-за слишком простой модели) и variance (нестабильность из-за слишком сложной модели на конкретной выборке). Простая модель (линейная регрессия) — высокий bias, низкий variance. Сложная (deep neural network) — низкий bias, высокий variance. Идеальный баланс минимизирует общую ошибку.
2. Как поймёшь, что модель переобучилась?
Метрика на train сильно лучше, чем на validation/test. Если train accuracy 95%, а validation 70% — overfitting. Решения: больше данных, регуляризация (L1/L2), упрощение модели (меньше параметров), early stopping в нейросетях, dropout, ансамбли.
3. Какую метрику выберешь для задачи fraud detection?
Fraud — это сильно несбалансированный класс (1-2% положительных). Accuracy неинформативна — модель, всегда предсказывающая «не fraud», даст 98% accuracy. Лучше: precision-recall curve, F1, или для бизнеса — precision при заданном recall (например, precision при recall=80%). Подробнее — accuracy vs F1.
4. Когда A/B-тест не работает?
Сценарии: (1) сетевые эффекты (соцсети — действия одних влияют на других); (2) долгий эффект (метрика проявляется через месяцы); (3) маленькая выборка с большим MDE; (4) контрольная группа загрязнена (юзеры видят обе версии). Альтернативы: switchback, geo-experiments, difference-in-differences.
5. Как обоснуешь, что внедрение твоей модели даст impact бизнесу?
Шаги: (1) метрика — что именно улучшим (revenue, retention, conversion); (2) baseline — текущий уровень; (3) ожидаемый эффект — на основе offline-метрик модели и предполагаемой связи с бизнес-метрикой; (4) A/B-тест — как проверим в реальности; (5) масштабируемость — что будет при катке на 100%.
Другие темы
- Продуктовая аналитика на собесе
- SQL на собеседовании
- Python на собеседовании
- A/B-тестирование на собесе
- Статистика и вероятности
Как готовиться
ML и статистика — фундамент. Без понимания bias-variance, регуляризации, CV, метрик качества — никак. Книги: Bishop, «ISLR», курсы StatQuest на YouTube.
A/B и эксперименты на advanced-уровне. Не только размер выборки, но и CUPED, switchback, causal inference. На уровне Senior DS — обязательно.
Кейсы вслух. ML system design — это устный формат. Тренируй вслух: «спроектируй систему рекомендаций» — 30 минут структурированно.
SQL до автоматизма. На DS-собесах SQL не сложнее, чем у аналитика, но решать быстрее и без ошибок.
Pet-projects. Один-два проекта с end-to-end ML-pipeline (от данных до A/B-теста реального продукта).
FAQ
Сколько математики нужно для DS-собеса?
База: линейная алгебра (матрицы, собственные значения), мат. анализ (производные, градиент), теория вероятностей (распределения, мат. ожидание, дисперсия), статистика (проверка гипотез, регрессия). На Junior — формулы знают, на Senior — глубже понимают.
Чем DS отличается от ML-Engineer?
DS — больше исследование, гипотезы, эксперименты, продуктовый impact. ML-Engineer — production-deploy, MLOps, инфраструктура, latency, scaling. На практике многие DS делают и то, и другое.
Нужен ли deep learning для каждой роли DS?
Нет. Большинство DS-задач решаются классическими алгоритмами (gradient boosting, logistic regression). Deep learning нужен в специфических доменах: CV, NLP, рекомендательные системы на больших данных.
Сколько готовиться к DS-собесу?
Junior: 3-6 месяцев интенсивной подготовки после базы. Middle: 1-3 месяца. Senior: фокус на ML system design и продуктовые кейсы, технический бэкграунд уже есть.