Портфолио аналитика данных: что включить и как оформить

Зачем аналитику портфолио

Портфолио — это доказательство навыков. Резюме говорит «я знаю SQL», портфолио показывает как именно. Для junior-аналитиков без коммерческого опыта портфолио часто решает, позовут ли на собеседование.

Кому нужно:

  • Junior без опыта — обязательно (2–3 проекта)
  • Переход из другой профессии — обязательно
  • Middle с опытом — желательно (показывает глубину)
  • Senior — не обязательно (опыт говорит сам за себя)

5 типов проектов для портфолио

1. EDA (Exploratory Data Analysis)

Что это: загрузить датасет, очистить данные, найти закономерности, визуализировать.

Пример: анализ датасета с Kaggle (Airbnb, Uber, Spotify). Jupyter Notebook с графиками и выводами.

Показывает: Pandas, визуализация, умение делать выводы из данных.

Минимум: загрузка данных, очистка пропусков, 5–7 графиков, 3–5 инсайтов.

2. SQL-проект

Что это: написать серию SQL-запросов для решения бизнес-задачи.

Пример: когортный анализ, расчёт retention, построение воронки — всё в SQL. Можно использовать публичную БД или загрузить CSV в PostgreSQL.

Показывает: SQL (JOIN, оконные функции, CTE), аналитическое мышление.

Минимум: 5–10 запросов с комментариями, README с описанием задачи и выводов.

3. Дашборд

Что это: интерактивный дашборд в Tableau Public, Looker Studio или Metabase.

Пример: дашборд продаж с фильтрами по регионам и категориям, динамикой по месяцам, KPI-блоком.

Показывает: навык визуализации, понимание метрик, UX дашборда.

Минимум: 3–5 визуализаций, фильтры, заголовок = вывод.

4. A/B-тест (симуляция)

Что это: взять данные, сформулировать гипотезу, провести статистический тест, сделать выводы.

Пример: сравнить конверсию двух вариантов лендинга. Z-тест, p-value, доверительный интервал, визуализация.

Показывает: статистика, Python (scipy.stats), интерпретация результатов.

Минимум: формулировка гипотезы, расчёт p-value, вывод с бизнес-рекомендацией.

5. End-to-end проект

Что это: полный цикл: данные → анализ → выводы → рекомендации.

Пример: «Анализ оттока пользователей: выявление факторов и рекомендации по снижению». Данные из Kaggle, Python + SQL, презентация результатов.

Показывает: весь набор навыков + умение структурировать и презентовать.

Как оформить на GitHub

Структура репозитория

portfolio-data-analyst/
├── README.md          ← описание + ссылки на проекты
├── 01-eda-airbnb/
│   ├── README.md      ← описание проекта
│   ├── notebook.ipynb ← Jupyter Notebook
│   └── data/          ← данные (или ссылка)
├── 02-sql-retention/
│   ├── README.md
│   └── queries.sql
├── 03-dashboard/
│   └── README.md      ← ссылка на Tableau Public
└── 04-ab-test/
    ├── README.md
    └── ab_analysis.ipynb

README для каждого проекта

# Анализ оттока пользователей

## Задача
Выявить факторы, влияющие на отток, и предложить меры по удержанию.

## Данные
Kaggle: Telco Customer Churn (7043 клиента, 21 признак)

## Инструменты
Python (Pandas, Matplotlib, Seaborn, SciPy)

## Ключевые выводы
1. Клиенты с помесячной оплатой уходят в 3 раза чаще
2. Отсутствие tech support — главный предиктор оттока
3. Первые 6 месяцев — критический период

## Рекомендации
- Предлагать скидку на годовую подписку в первый месяц
- Проактивный outreach клиентам без tech support

Типичные ошибки

1. Курсовые проекты без переработки

«Проект с курса Яндекс Практикум» — рекрутер видел их сотни. Если используете курсовой проект — переработайте: добавьте свои гипотезы, другие визуализации, дополнительный анализ.

2. Нет выводов

Notebook с 20 графиками, но без единого вывода — бесполезен. Каждый график должен сопровождаться интерпретацией: «Что это значит для бизнеса?»

3. Слишком много проектов

2–3 качественных проекта > 10 поверхностных. Глубокий EDA + SQL-проект + дашборд — достаточно для junior.

4. Нет README

Репозиторий без описания — рекрутер не будет разбираться в коде. README = первое впечатление.

5. Грязные данные в коде

Пароли, абсолютные пути (C:\Users\Vasya\...), дебаг-принты. Перед публикацией — cleanup.

Где брать данные для проектов

  • Kaggle Datasets — тысячи датасетов с описаниями
  • data.gov.ru — открытые данные правительства РФ
  • Google Dataset Search — поиск по публичным датасетам
  • Our World in Data — социально-экономические данные
  • Свои данные — экспорт из приложений, которые используете

Как портфолио помогает на собеседовании

  1. Показать при отклике. Ссылка в резюме → рекрутер видит реальные навыки
  2. Обсудить на интервью. «Расскажите про проект» — у вас готовый ответ
  3. Показать мышление. Не «я прошёл курс по SQL», а «я проанализировал retention по когортам и нашёл, что...»

Читайте также

FAQ

Сколько проектов нужно для junior-позиции?

2–3 качественных проекта: EDA + SQL-проект + дашборд (или A/B-тест). Больше — не обязательно. Каждый проект должен иметь чёткий README с задачей, инструментами и выводами.

Обязательно ли использовать GitHub?

Да, для SQL и Python проектов — GitHub стандарт. Для дашбордов — Tableau Public. Рекрутеры и нанимающие менеджеры привыкли к GitHub — это показывает, что вы умеете работать с git.

Можно ли использовать учебные данные?

Да, Kaggle-датасеты — нормально. Главное — ваш анализ, а не данные. Не копируйте готовые notebooks — добавляйте свои гипотезы и выводы.

Как выделиться среди других портфолио?

Выводы и рекомендации. 90% портфолио — это код без интерпретации. Если каждый ваш график сопровождается бизнес-выводом и рекомендацией — вы уже в топ-10%.


Начните с практики SQL — откройте тренажёр с 200+ задачами для портфолио и собеседований.