Из аналитика данных в Data Scientist: путь и план
Содержание:
Зачем data analyst переходит в Data Scientist
DA — это про метрики, дашборды, A/B, продуктовые кейсы. DS — про модели, прогнозы, рекомендации. Переход даёт: более высокую медианную зарплату, более широкий инструментарий, больше research-составляющей, выход на новые задачи (рекомендации, NLP, CV, прогнозы).
В РФ — типичный переход: аналитик с 2-3 годами опыта → DS junior+/middle (компенсирует опыт работы с данными). На собесе Data Scientist DA-опыт даёт преимущество: уже знаешь SQL, A/B, продуктовые метрики. Нужно добрать ML и более глубокую статистику.
Что общего и в чём разница
Общее:
- SQL (DA знает обычно лучше)
- A/B-тесты (DA знает на product-level, DS — глубже на statistical level)
- Продуктовая аналитика, метрики, retention, funnels
- Python для анализа данных (pandas, numpy)
- Базовая статистика (распределения, гипотезы)
Разница (что нужно прокачать):
| DA | DS | |
|---|---|---|
| ML алгоритмы | базовое понимание | работа с моделями |
| Математика | descriptive stats | linear algebra, probability, optimization |
| Программирование | scripts, automation | production code, pipelines |
| Deep learning | редко | для специфических ролей |
| Эксперименты | A/B | A/B + causal inference (DiD, PSM) |
| Метрики моделей | mostly business | offline + online + calibration |
Что доучить
1. ML-теория (3-6 месяцев)
- Bias-variance trade-off, overfitting / underfitting, регуляризация
- Алгоритмы: linear/logistic regression, decision trees, random forest, gradient boosting (CatBoost / LightGBM / XGBoost), KNN
- Метрики: accuracy / precision / recall / F1 / AUC-ROC / AUC-PR / NDCG / MAP. Когда какая.
- Validation: cross-validation, train/val/test split, time-based split
Подробнее — ML-теория на собесе DS.
2. Продвинутая статистика (2-3 месяца)
- Probability: распределения (нормальное, биномиальное, пуассон), bayesian basics
- Hypothesis testing: больше глубины (multiple testing, multiple comparison)
- Causal inference: причинность vs корреляция, DiD, propensity score matching
- Bootstrap, permutation testing
3. Python на уровне выше (2-3 месяца)
- Pandas + numpy глубоко (vectorization, оптимизация)
- scikit-learn: pipelines, feature engineering, GridSearch
- Алгоритмы: уверенный LeetCode Easy/Medium
- PyTorch / TensorFlow basics (для deep learning ролей)
4. ML system design (1-2 месяца)
Как проектировать ML-системы end-to-end: данные → фичи → модель → деплой → мониторинг. Подробнее — ML system design.
План перехода
Месяцы 0-3: Foundation
- Прорешать LeetCode Medium 30-50 задач
- Курс по ML (Andrew Ng / fast.ai / Stanford CS229)
- Книги: ISLR, «Hands-On ML with Scikit-Learn» (Géron)
- Начать pet-project — реальная ML-задача от данных до deploy
Месяцы 3-6: Углубление
- Книги: «The Elements of Statistical Learning», «Pattern Recognition and Machine Learning»
- Курс по deep learning (если идёшь в NLP/CV)
- Прорешать ML system design кейсы (10+)
- Доделать pet-project, разместить на GitHub
Месяцы 6-9: Применение
- Брать ML-задачи на текущей работе (если возможно)
- Контрибутить в open-source ML библиотеки (опционально)
- Участвовать в Kaggle (опционально)
- Подавать на DS-позиции
Где брать ML-опыт
1. На текущей работе. Самый эффективный путь. Найди задачу: «спрогнозируй X», «классифицируй Y», «найди аномалии в Z». Подойди к продакту/менеджеру: «Можно я попробую?» Часто да.
2. Pet-project. Свой продукт с ML-компонентом: рекомендации, прогноз, классификация. Развернуть в production (Streamlit / Hugging Face Spaces).
3. Kaggle. Соревнования. Не гонись за топ-1, важнее закрепить practical-навыки.
4. Open-source. Контрибуть в scikit-learn, pandas, PyTorch. Высокий signal для рекрутеров.
5. Стажировки / contract. Если резко переходишь — можно начать со стажировки.
Частые ошибки
- Зубрить алгоритмы без понимания. «Я знаю Random Forest» — это название. Нужно: объяснить bias-variance, когда подходит, как настраивать.
- Прыгать в deep learning сразу. Classical ML — основа. Без неё DL не пойдёт.
- Слабая алгоритмика. DS-собес проверяет Python + базовые алгоритмы. LeetCode — обязательно.
- Игнорировать математику. Linear algebra, calculus, probability — без них теория ломается.
- Pet-project в Jupyter Notebook без deploy. Кейс «обучил модель в notebook» не впечатляет рекрутера. Нужен end-to-end pipeline.
Связанные темы
- Собеседование на Data Scientist
- Что общего и разное у DA и DS
- ML-теория на собесе DS
- Causal inference: причинность vs корреляция
- Из аналитика в продакт-менеджеры
FAQ
Сколько занимает переход?
В среднем 9-12 месяцев активного обучения + 1-3 месяца поиска работы. Если уже работаешь аналитиком с ML-задачами — быстрее.
С какого опыта DA лучше переходить?
С 2-3 лет в DA. Раньше — лучше остаться, накопить базу. Сильно позже — может встать вопрос «зачем менять».
Стоит ли получать второе образование?
Не обязательно. Лучше — курсы + pet-projects + статьи / публикации.
Какие компании дружелюбны к переходящим?
Те, где работаешь сейчас (внутренний transfer). Также большие технологические — Yandex, Tinkoff, Сбер, Ozon. Они любят брать DA внутрь DS-команд.
Что важнее — алгоритмы или продуктовое мышление?
Зависит от роли. Applied DS — продуктовое мышление + базовая теория. Research DS / ML Engineer — алгоритмы + математика.