Как собрать портфолио аналитика данных

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Зачем нужно портфолио

Резюме говорит «я умею SQL». Портфолио показывает как вы умеете: видно ваш стиль кода, structure анализа, как вы презентуете результаты. Для junior без опыта — портфолио решает, позовут ли на интервью.

На собеседовании по вашему портфолио пройдутся: «расскажи про этот проект», «почему эти данные», «какие выводы делать из этого графика». Без качественного портфолио джунам сложно даже получить шанс.

В статье:

  • Зачем портфолио
  • Структура портфолио
  • Где брать данные
  • Идеи проектов
  • Как презентовать
  • Типичные ошибки

Что нужно

Хорошее портфолио аналитика в 2026:

  1. GitHub с 3-5 проектами
  2. Tableau Public / GitHub Pages с дашбордами
  3. README с анализом и выводами
  4. Kaggle profile (плюс, не обязательно)

Где брать данные

1. Kaggle Datasets

Тысячи датасетов, от Titanic до real business data.

2. Open Data РФ

  • Росстат, Открытые данные Москвы
  • Русскоязычные датасеты Яндекс, Mail.ru

3. Kaggle Competitions

Практика для junior DS / ML.

4. Public APIs

  • Habr API, VC.ru API
  • OpenWeather, CoinGecko
  • Twitter / Reddit (если есть access)

5. Scraping

Осторожно с terms of service. Открытые сайты: sobaka.ru, vc.ru.

6. Own data

Личные fitness / финансы / habit trackers — отличный source.

Идеи проектов

Junior level

  1. EDA на Titanic / Netflix dataset — классика для Kaggle.
  2. Dashboard по public data — Tableau / Metabase с COVID / crypto / sports.
  3. A/B analysis exercise — simulated data, calculate lift.
  4. SQL exercise на dataset — написать 10 бизнес-ориентированных queries.

Middle level

  1. Churn prediction — classification на public telecom / bank data.
  2. Cohort retention analysis — на app events data.
  3. Marketing ROI — синтетические spend + revenue.
  4. Funnel optimization — e-commerce events data.

Advanced

  1. Causal inference study — DiD на natural experiments.
  2. Time series forecasting — retail / web traffic.
  3. Recommendation system — collaborative filtering.
  4. Full ETL pipeline — Airflow + dbt + BI.

Structure проекта

Каждый проект — отдельный GitHub репозиторий:

/project-name
  README.md           # описание проекта, выводы
  notebooks/          # Jupyter notebooks
    01_eda.ipynb
    02_analysis.ipynb
  data/               # данные (small files)
  sql/                # SQL queries
  requirements.txt    # зависимости
  .gitignore

README важнейший

Должен содержать:

  • Problem statement: какую проблему решаем
  • Data description: источник и schema
  • Methodology: что делали
  • Key findings: 3-5 главных инсайтов с цифрами
  • How to run: инструкция для воспроизведения

Скриншоты графиков в README — обязательно.

Что включить

Notebooks

Хорошие notebooks:

  • Markdown комментарии к шагам
  • Чистый код (нет debug prints)
  • Визуализация инсайтов
  • Выводы в конце

SQL queries

Если есть SQL часть — отдельной папкой с комментариями.

Dashboards

Tableau Public link. Иначе screenshots в README.

Writeup / Blog post

Medium / Habr article о проекте — огромный плюс. Показывает soft skills.

Как презентовать на собесе

Story

«Я хотел изучить X. Взял Y данные. Применил Z методы. Нашёл W инсайт».

Не «Я делал всё подряд».

Метрики и цифры

Не «улучшил модель». «Accuracy 0.75 → 0.82 через feature engineering».

Limitations

Упомяните, что не сделали. «Нет causal analysis, это correlational». Показывает зрелость.

Типичные ошибки

1. Клонированный Titanic

Интервьюер видел 100 раз. Если делаете — добавьте свои insights.

2. Notebook без комментариев

«Код и цифры» без объяснений → интервьюер не поймёт вашу мысль.

3. Нет README

Репозиторий без README выглядит заброшенным.

4. Тривиальные data

«Показ продаж по магазинам» — слабо. Добавьте analysis, не просто визуализацию.

5. Перфекционизм

3 качественных проекта > 15 недоделанных.

6. Не добавляете в резюме

Портфолио без link в резюме — его не найдут.

Уровень проектов

Для Junior / Entry

  • 3-4 проекта
  • 2 из них — собственные (не Kaggle)
  • Хотя бы 1 с полным писмом analysis

Для Middle

  • 5+ проектов
  • Разные домены (e-commerce, SaaS, finance)
  • Один глубокий проект (ML end-to-end или большой dashboard)

Senior

  • Портфолио менее важно
  • Showcase strategic thinking через blog posts / talks

GitHub tips

  • Commit регулярно (активность видна)
  • README с shields (tech stack icons)
  • Pin 6 repos наверху profile
  • Контribution в open source — плюс

На собесе

Ключевой вопрос: «расскажи про любимый проект». Готовьтесь за 5 минут показать / обсудить.

Связанные темы

FAQ

Сколько проектов обязательно?

Minimum 3 качественных. Больше — плюс.

Open source contributions?

Большой плюс. Даже 1 PR в pandas / sklearn — важно.

Kaggle competitions?

Top 10% — сильный signal. Просто participation — менее важно.

Pet-проект на работе — ok?

Если собираетесь публиковать — очистите от IP / confidential data.


Готовьтесь к собесу — откройте тренажёр с 1500+ вопросами для аналитиков.