Портфолио аналитика данных: что включить и как оформить
Зачем аналитику портфолио
Портфолио — это доказательство навыков. Резюме говорит «я знаю SQL», портфолио показывает как именно. Для junior-аналитиков без коммерческого опыта портфолио часто решает, позовут ли на собеседование.
Кому нужно:
- Junior без опыта — обязательно (2–3 проекта)
- Переход из другой профессии — обязательно
- Middle с опытом — желательно (показывает глубину)
- Senior — не обязательно (опыт говорит сам за себя)
5 типов проектов для портфолио
1. EDA (Exploratory Data Analysis)
Что это: загрузить датасет, очистить данные, найти закономерности, визуализировать.
Пример: анализ датасета с Kaggle (Airbnb, Uber, Spotify). Jupyter Notebook с графиками и выводами.
Показывает: Pandas, визуализация, умение делать выводы из данных.
Минимум: загрузка данных, очистка пропусков, 5–7 графиков, 3–5 инсайтов.
2. SQL-проект
Что это: написать серию SQL-запросов для решения бизнес-задачи.
Пример: когортный анализ, расчёт retention, построение воронки — всё в SQL. Можно использовать публичную БД или загрузить CSV в PostgreSQL.
Показывает: SQL (JOIN, оконные функции, CTE), аналитическое мышление.
Минимум: 5–10 запросов с комментариями, README с описанием задачи и выводов.
3. Дашборд
Что это: интерактивный дашборд в Tableau Public, Looker Studio или Metabase.
Пример: дашборд продаж с фильтрами по регионам и категориям, динамикой по месяцам, KPI-блоком.
Показывает: навык визуализации, понимание метрик, UX дашборда.
Минимум: 3–5 визуализаций, фильтры, заголовок = вывод.
4. A/B-тест (симуляция)
Что это: взять данные, сформулировать гипотезу, провести статистический тест, сделать выводы.
Пример: сравнить конверсию двух вариантов лендинга. Z-тест, p-value, доверительный интервал, визуализация.
Показывает: статистика, Python (scipy.stats), интерпретация результатов.
Минимум: формулировка гипотезы, расчёт p-value, вывод с бизнес-рекомендацией.
5. End-to-end проект
Что это: полный цикл: данные → анализ → выводы → рекомендации.
Пример: «Анализ оттока пользователей: выявление факторов и рекомендации по снижению». Данные из Kaggle, Python + SQL, презентация результатов.
Показывает: весь набор навыков + умение структурировать и презентовать.
Как оформить на GitHub
Структура репозитория
portfolio-data-analyst/
├── README.md ← описание + ссылки на проекты
├── 01-eda-airbnb/
│ ├── README.md ← описание проекта
│ ├── notebook.ipynb ← Jupyter Notebook
│ └── data/ ← данные (или ссылка)
├── 02-sql-retention/
│ ├── README.md
│ └── queries.sql
├── 03-dashboard/
│ └── README.md ← ссылка на Tableau Public
└── 04-ab-test/
├── README.md
└── ab_analysis.ipynbREADME для каждого проекта
# Анализ оттока пользователей
## Задача
Выявить факторы, влияющие на отток, и предложить меры по удержанию.
## Данные
Kaggle: Telco Customer Churn (7043 клиента, 21 признак)
## Инструменты
Python (Pandas, Matplotlib, Seaborn, SciPy)
## Ключевые выводы
1. Клиенты с помесячной оплатой уходят в 3 раза чаще
2. Отсутствие tech support — главный предиктор оттока
3. Первые 6 месяцев — критический период
## Рекомендации
- Предлагать скидку на годовую подписку в первый месяц
- Проактивный outreach клиентам без tech supportТипичные ошибки
1. Курсовые проекты без переработки
«Проект с курса Яндекс Практикум» — рекрутер видел их сотни. Если используете курсовой проект — переработайте: добавьте свои гипотезы, другие визуализации, дополнительный анализ.
2. Нет выводов
Notebook с 20 графиками, но без единого вывода — бесполезен. Каждый график должен сопровождаться интерпретацией: «Что это значит для бизнеса?»
3. Слишком много проектов
2–3 качественных проекта > 10 поверхностных. Глубокий EDA + SQL-проект + дашборд — достаточно для junior.
4. Нет README
Репозиторий без описания — рекрутер не будет разбираться в коде. README = первое впечатление.
5. Грязные данные в коде
Пароли, абсолютные пути (C:\Users\Vasya\...), дебаг-принты. Перед публикацией — cleanup.
Где брать данные для проектов
- Kaggle Datasets — тысячи датасетов с описаниями
- data.gov.ru — открытые данные правительства РФ
- Google Dataset Search — поиск по публичным датасетам
- Our World in Data — социально-экономические данные
- Свои данные — экспорт из приложений, которые используете
Как портфолио помогает на собеседовании
- Показать при отклике. Ссылка в резюме → рекрутер видит реальные навыки
- Обсудить на интервью. «Расскажите про проект» — у вас готовый ответ
- Показать мышление. Не «я прошёл курс по SQL», а «я проанализировал retention по когортам и нашёл, что...»
Читайте также
- Как стать аналитиком данных
- Роадмап аналитика данных
- Тестовое задание аналитика: 10 примеров
- Python для аналитика
- SQL-тренажёр: 200+ задач
FAQ
Сколько проектов нужно для junior-позиции?
2–3 качественных проекта: EDA + SQL-проект + дашборд (или A/B-тест). Больше — не обязательно. Каждый проект должен иметь чёткий README с задачей, инструментами и выводами.
Обязательно ли использовать GitHub?
Да, для SQL и Python проектов — GitHub стандарт. Для дашбордов — Tableau Public. Рекрутеры и нанимающие менеджеры привыкли к GitHub — это показывает, что вы умеете работать с git.
Можно ли использовать учебные данные?
Да, Kaggle-датасеты — нормально. Главное — ваш анализ, а не данные. Не копируйте готовые notebooks — добавляйте свои гипотезы и выводы.
Как выделиться среди других портфолио?
Выводы и рекомендации. 90% портфолио — это код без интерпретации. Если каждый ваш график сопровождается бизнес-выводом и рекомендацией — вы уже в топ-10%.
Начните с практики SQL — откройте тренажёр с 200+ задачами для портфолио и собеседований.