Supervised vs unsupervised learning

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Зачем знать разницу

На любом собеседовании по ML первый вопрос — «что такое supervised и unsupervised learning». Junior отвечает «первое с метками, второе без». Middle объясняет с примерами. Senior обсудит nuances — self-supervised, semi-supervised, RL.

В продуктовой аналитике это критично. Churn prediction — supervised (есть labels). Customer segmentation — unsupervised (нет готовых групп). Recommendation — гибрид. От типа зависит подход к данным и выбор алгоритма.

В статье:

  • Короткий ответ
  • Примеры supervised (regression, classification)
  • Примеры unsupervised (clustering, dimensionality reduction)
  • Semi-supervised и self-supervised (современное)
  • Когда какой тип выбрать

Короткий ответ

  • Supervised: обучаемся на parah (X, y) — features и target. Модель учится предсказывать y по X.
  • Unsupervised: есть только X (без y). Модель ищет структуру / паттерны.

Supervised

Типы задач

Regression — предсказать число:

  • Цена дома
  • LTV клиента
  • Time до события

Classification — предсказать категорию:

  • Churn / no churn
  • Spam / не spam
  • Категория товара

Алгоритмы

  • Linear / Logistic Regression
  • Decision Trees
  • Random Forest
  • Gradient Boosting (XGBoost, LightGBM, CatBoost)
  • Neural Networks
  • SVM
  • k-NN

Что нужно

  • Labeled data: X + y (сотни-тысячи примеров)
  • Train/test split: не переобучиться
  • Evaluation metric: RMSE / MAE для regression, accuracy / F1 / AUC для classification

Unsupervised

Типы задач

Clustering — группировка:

  • RFM-сегментация клиентов
  • Customer personas

Dimensionality reduction — сжатие:

  • PCA для feature engineering
  • t-SNE / UMAP для визуализации

Anomaly detection:

  • Fraud
  • System failures

Association rules:

  • Market basket analysis («купили X → купят Y»)

Алгоритмы

  • K-Means, DBSCAN, Hierarchical clustering
  • PCA, t-SNE, UMAP
  • Isolation Forest, Autoencoders (anomaly)
  • Apriori, FP-Growth (association)

Что нужно

  • Только X (features)
  • Интерпретация результата — человеческая работа (нет гарантии качества)
  • Доменные знания для валидации

Различия в workflow

Supervised

  1. Собрать labeled data
  2. Train / test split
  3. Обучить модель
  4. Оценить на test (accuracy / AUC)
  5. Deploy

Unsupervised

  1. Собрать X
  2. Выбрать алгоритм (K-means?)
  3. Запустить
  4. Интерпретировать вручную — что значит этот кластер?
  5. Использовать результат (метки для dashboard, для targeted кампаний)

Semi-supervised

Когда часть данных labeled, часть — нет.

Пример: 1000 размеченных + 100 000 неразмеченных документов. Обучаем сначала на малом labeled, потом propagate labels на unlabeled.

Техники: Pseudo-labeling, self-training, graph-based.

Self-supervised

Новая школа (2018+). Labels генерируются из самих данных.

Пример: BERT — модель предсказывает пропущенное слово в предложении. Labels (пропущенное слово) есть прямо в тексте.

Революция: не нужны human labels → огромные датасеты.

Reinforcement learning (4-й тип)

Нет labels. Агент взаимодействует со средой, получает reward.

  • AlphaGo, GPT RLHF, recommender systems
  • Не изучают прямо по X→y, а оптимизируют долгосрочный reward.

В продуктовой аналитике

Supervised примеры

  • Churn prediction
  • LTV forecasting
  • Lead scoring
  • Conversion probability
  • Fraud detection

Unsupervised примеры

  • Customer segmentation (K-Means на behavioral features)
  • Anomaly detection в metrics
  • Grouping похожих товаров
  • Topic modeling на отзывах

На собесе

«Разница?» Supervised — X и y. Unsupervised — только X.

«Примеры?» Churn = supervised. Segmentation = unsupervised.

«Как оценивать unsupervised?» Нет готовой метрики. Domain knowledge + silhouette / elbow для кластеризации.

«K-means supervised?» Нет, unsupervised — не нужны готовые labels.

Частые ошибки

1. Unsupervised без интерпретации

K-Means дал 5 кластеров → хорошо, но ЧТО это за группы? Без этого бесполезно.

2. Supervised без test set

Обучили, «отлично работает на train» → скорее всего overfit.

3. Clustering как замена segmentation

Rule-based segmentation часто лучше: понятнее, стабильнее.

4. Игнорировать semi-supervised

Если есть много unlabeled — они могут улучшить модель.

Связанные темы

FAQ

Semi-supervised vs weakly-supervised?

Semi = часть labeled. Weakly = labels noisy / не точные.

Unsupervised быстрее?

Обычно быстрее trainить, но интерпретация дольше.

Можно без labels совсем?

Да, unsupervised и self-supervised — без human labels.

Что учить первым?

Supervised. Фундамент ML.


Тренируйте ML — откройте тренажёр с 1500+ вопросами для собесов.