Как собрать портфолио аналитика данных
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Зачем нужно портфолио
Резюме говорит «я умею SQL». Портфолио показывает как вы умеете: видно ваш стиль кода, structure анализа, как вы презентуете результаты. Для junior без опыта — портфолио решает, позовут ли на интервью.
На собеседовании по вашему портфолио пройдутся: «расскажи про этот проект», «почему эти данные», «какие выводы делать из этого графика». Без качественного портфолио джунам сложно даже получить шанс.
В статье:
- Зачем портфолио
- Структура портфолио
- Где брать данные
- Идеи проектов
- Как презентовать
- Типичные ошибки
Что нужно
Хорошее портфолио аналитика в 2026:
- GitHub с 3-5 проектами
- Tableau Public / GitHub Pages с дашбордами
- README с анализом и выводами
- Kaggle profile (плюс, не обязательно)
Где брать данные
1. Kaggle Datasets
Тысячи датасетов, от Titanic до real business data.
2. Open Data РФ
- Росстат, Открытые данные Москвы
- Русскоязычные датасеты Яндекс, Mail.ru
3. Kaggle Competitions
Практика для junior DS / ML.
4. Public APIs
- Habr API, VC.ru API
- OpenWeather, CoinGecko
- Twitter / Reddit (если есть access)
5. Scraping
Осторожно с terms of service. Открытые сайты: sobaka.ru, vc.ru.
6. Own data
Личные fitness / финансы / habit trackers — отличный source.
Идеи проектов
Junior level
- EDA на Titanic / Netflix dataset — классика для Kaggle.
- Dashboard по public data — Tableau / Metabase с COVID / crypto / sports.
- A/B analysis exercise — simulated data, calculate lift.
- SQL exercise на dataset — написать 10 бизнес-ориентированных queries.
Middle level
- Churn prediction — classification на public telecom / bank data.
- Cohort retention analysis — на app events data.
- Marketing ROI — синтетические spend + revenue.
- Funnel optimization — e-commerce events data.
Advanced
- Causal inference study — DiD на natural experiments.
- Time series forecasting — retail / web traffic.
- Recommendation system — collaborative filtering.
- Full ETL pipeline — Airflow + dbt + BI.
Structure проекта
Каждый проект — отдельный GitHub репозиторий:
/project-name
README.md # описание проекта, выводы
notebooks/ # Jupyter notebooks
01_eda.ipynb
02_analysis.ipynb
data/ # данные (small files)
sql/ # SQL queries
requirements.txt # зависимости
.gitignoreREADME важнейший
Должен содержать:
- Problem statement: какую проблему решаем
- Data description: источник и schema
- Methodology: что делали
- Key findings: 3-5 главных инсайтов с цифрами
- How to run: инструкция для воспроизведения
Скриншоты графиков в README — обязательно.
Что включить
Notebooks
Хорошие notebooks:
- Markdown комментарии к шагам
- Чистый код (нет debug prints)
- Визуализация инсайтов
- Выводы в конце
SQL queries
Если есть SQL часть — отдельной папкой с комментариями.
Dashboards
Tableau Public link. Иначе screenshots в README.
Writeup / Blog post
Medium / Habr article о проекте — огромный плюс. Показывает soft skills.
Как презентовать на собесе
Story
«Я хотел изучить X. Взял Y данные. Применил Z методы. Нашёл W инсайт».
Не «Я делал всё подряд».
Метрики и цифры
Не «улучшил модель». «Accuracy 0.75 → 0.82 через feature engineering».
Limitations
Упомяните, что не сделали. «Нет causal analysis, это correlational». Показывает зрелость.
Типичные ошибки
1. Клонированный Titanic
Интервьюер видел 100 раз. Если делаете — добавьте свои insights.
2. Notebook без комментариев
«Код и цифры» без объяснений → интервьюер не поймёт вашу мысль.
3. Нет README
Репозиторий без README выглядит заброшенным.
4. Тривиальные data
«Показ продаж по магазинам» — слабо. Добавьте analysis, не просто визуализацию.
5. Перфекционизм
3 качественных проекта > 15 недоделанных.
6. Не добавляете в резюме
Портфолио без link в резюме — его не найдут.
Уровень проектов
Для Junior / Entry
- 3-4 проекта
- 2 из них — собственные (не Kaggle)
- Хотя бы 1 с полным писмом analysis
Для Middle
- 5+ проектов
- Разные домены (e-commerce, SaaS, finance)
- Один глубокий проект (ML end-to-end или большой dashboard)
Senior
- Портфолио менее важно
- Showcase strategic thinking через blog posts / talks
GitHub tips
- Commit регулярно (активность видна)
- README с shields (tech stack icons)
- Pin 6 repos наверху profile
- Контribution в open source — плюс
На собесе
Ключевой вопрос: «расскажи про любимый проект». Готовьтесь за 5 минут показать / обсудить.
Связанные темы
FAQ
Сколько проектов обязательно?
Minimum 3 качественных. Больше — плюс.
Open source contributions?
Большой плюс. Даже 1 PR в pandas / sklearn — важно.
Kaggle competitions?
Top 10% — сильный signal. Просто participation — менее важно.
Pet-проект на работе — ok?
Если собираетесь публиковать — очистите от IP / confidential data.
Готовьтесь к собесу — откройте тренажёр с 1500+ вопросами для аналитиков.