Из аналитика данных в Data Scientist: путь и план

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Зачем data analyst переходит в Data Scientist

DA — это про метрики, дашборды, A/B, продуктовые кейсы. DS — про модели, прогнозы, рекомендации. Переход даёт: более высокую медианную зарплату, более широкий инструментарий, больше research-составляющей, выход на новые задачи (рекомендации, NLP, CV, прогнозы).

В РФ — типичный переход: аналитик с 2-3 годами опыта → DS junior+/middle (компенсирует опыт работы с данными). На собесе Data Scientist DA-опыт даёт преимущество: уже знаешь SQL, A/B, продуктовые метрики. Нужно добрать ML и более глубокую статистику.

Что общего и в чём разница

Общее:

  • SQL (DA знает обычно лучше)
  • A/B-тесты (DA знает на product-level, DS — глубже на statistical level)
  • Продуктовая аналитика, метрики, retention, funnels
  • Python для анализа данных (pandas, numpy)
  • Базовая статистика (распределения, гипотезы)

Разница (что нужно прокачать):

DA DS
ML алгоритмы базовое понимание работа с моделями
Математика descriptive stats linear algebra, probability, optimization
Программирование scripts, automation production code, pipelines
Deep learning редко для специфических ролей
Эксперименты A/B A/B + causal inference (DiD, PSM)
Метрики моделей mostly business offline + online + calibration

Что доучить

1. ML-теория (3-6 месяцев)

  • Bias-variance trade-off, overfitting / underfitting, регуляризация
  • Алгоритмы: linear/logistic regression, decision trees, random forest, gradient boosting (CatBoost / LightGBM / XGBoost), KNN
  • Метрики: accuracy / precision / recall / F1 / AUC-ROC / AUC-PR / NDCG / MAP. Когда какая.
  • Validation: cross-validation, train/val/test split, time-based split

Подробнее — ML-теория на собесе DS.

2. Продвинутая статистика (2-3 месяца)

  • Probability: распределения (нормальное, биномиальное, пуассон), bayesian basics
  • Hypothesis testing: больше глубины (multiple testing, multiple comparison)
  • Causal inference: причинность vs корреляция, DiD, propensity score matching
  • Bootstrap, permutation testing

3. Python на уровне выше (2-3 месяца)

  • Pandas + numpy глубоко (vectorization, оптимизация)
  • scikit-learn: pipelines, feature engineering, GridSearch
  • Алгоритмы: уверенный LeetCode Easy/Medium
  • PyTorch / TensorFlow basics (для deep learning ролей)

4. ML system design (1-2 месяца)

Как проектировать ML-системы end-to-end: данные → фичи → модель → деплой → мониторинг. Подробнее — ML system design.

План перехода

Месяцы 0-3: Foundation

  • Прорешать LeetCode Medium 30-50 задач
  • Курс по ML (Andrew Ng / fast.ai / Stanford CS229)
  • Книги: ISLR, «Hands-On ML with Scikit-Learn» (Géron)
  • Начать pet-project — реальная ML-задача от данных до deploy

Месяцы 3-6: Углубление

  • Книги: «The Elements of Statistical Learning», «Pattern Recognition and Machine Learning»
  • Курс по deep learning (если идёшь в NLP/CV)
  • Прорешать ML system design кейсы (10+)
  • Доделать pet-project, разместить на GitHub

Месяцы 6-9: Применение

  • Брать ML-задачи на текущей работе (если возможно)
  • Контрибутить в open-source ML библиотеки (опционально)
  • Участвовать в Kaggle (опционально)
  • Подавать на DS-позиции
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Где брать ML-опыт

1. На текущей работе. Самый эффективный путь. Найди задачу: «спрогнозируй X», «классифицируй Y», «найди аномалии в Z». Подойди к продакту/менеджеру: «Можно я попробую?» Часто да.

2. Pet-project. Свой продукт с ML-компонентом: рекомендации, прогноз, классификация. Развернуть в production (Streamlit / Hugging Face Spaces).

3. Kaggle. Соревнования. Не гонись за топ-1, важнее закрепить practical-навыки.

4. Open-source. Контрибуть в scikit-learn, pandas, PyTorch. Высокий signal для рекрутеров.

5. Стажировки / contract. Если резко переходишь — можно начать со стажировки.

Частые ошибки

  • Зубрить алгоритмы без понимания. «Я знаю Random Forest» — это название. Нужно: объяснить bias-variance, когда подходит, как настраивать.
  • Прыгать в deep learning сразу. Classical ML — основа. Без неё DL не пойдёт.
  • Слабая алгоритмика. DS-собес проверяет Python + базовые алгоритмы. LeetCode — обязательно.
  • Игнорировать математику. Linear algebra, calculus, probability — без них теория ломается.
  • Pet-project в Jupyter Notebook без deploy. Кейс «обучил модель в notebook» не впечатляет рекрутера. Нужен end-to-end pipeline.

Связанные темы

FAQ

Сколько занимает переход?

В среднем 9-12 месяцев активного обучения + 1-3 месяца поиска работы. Если уже работаешь аналитиком с ML-задачами — быстрее.

С какого опыта DA лучше переходить?

С 2-3 лет в DA. Раньше — лучше остаться, накопить базу. Сильно позже — может встать вопрос «зачем менять».

Стоит ли получать второе образование?

Не обязательно. Лучше — курсы + pet-projects + статьи / публикации.

Какие компании дружелюбны к переходящим?

Те, где работаешь сейчас (внутренний transfer). Также большие технологические — Yandex, Tinkoff, Сбер, Ozon. Они любят брать DA внутрь DS-команд.

Что важнее — алгоритмы или продуктовое мышление?

Зависит от роли. Applied DS — продуктовое мышление + базовая теория. Research DS / ML Engineer — алгоритмы + математика.