22 апреля 2026 г.

Supervised vs unsupervised learning

Q: Что учить первым?

Supervised. Фундамент ML. --- Тренируйте ML — [откройте тренажёр](https://t.me/kariernik_bot/app?startapp=web_blog_supervised-vs-unsupervised-learning) с 1500+ вопросами для собесов.

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Зачем знать разницу

На любом собеседовании по ML первый вопрос — «что такое supervised и unsupervised learning». Junior отвечает «первое с метками, второе без». Middle объясняет с примерами. Senior обсудит nuances — self-supervised, semi-supervised, RL.

В продуктовой аналитике это критично. Churn prediction — supervised (есть labels). Customer segmentation — unsupervised (нет готовых групп). Recommendation — гибрид. От типа зависит подход к данным и выбор алгоритма.

В статье:

Короткий ответ
Примеры supervised (regression, classification)
Примеры unsupervised (clustering, dimensionality reduction)
Semi-supervised и self-supervised (современное)
Когда какой тип выбрать

Короткий ответ

Supervised: обучаемся на parah (X, y) — features и target. Модель учится предсказывать y по X.
Unsupervised: есть только X (без y). Модель ищет структуру / паттерны.

Supervised

Типы задач

Regression — предсказать число:

Цена дома
LTV клиента
Time до события

Classification — предсказать категорию:

Churn / no churn
Spam / не spam
Категория товара

Алгоритмы

Linear / Logistic Regression
Decision Trees
Random Forest
Gradient Boosting (XGBoost, LightGBM, CatBoost)
Neural Networks
SVM
k-NN

Что нужно

Labeled data: X + y (сотни-тысячи примеров)
Train/test split: не переобучиться
Evaluation metric: RMSE / MAE для regression, accuracy / F1 / AUC для classification

Unsupervised

Типы задач

Clustering — группировка:

RFM-сегментация клиентов
Customer personas

Dimensionality reduction — сжатие:

PCA для feature engineering
t-SNE / UMAP для визуализации

Anomaly detection:

Fraud
System failures

Association rules:

Market basket analysis («купили X → купят Y»)

Алгоритмы

K-Means, DBSCAN, Hierarchical clustering
PCA, t-SNE, UMAP
Isolation Forest, Autoencoders (anomaly)
Apriori, FP-Growth (association)

Что нужно

Только X (features)
Интерпретация результата — человеческая работа (нет гарантии качества)
Доменные знания для валидации

Различия в workflow

Supervised

Собрать labeled data
Train / test split
Обучить модель
Оценить на test (accuracy / AUC)
Deploy

Unsupervised

Собрать X
Выбрать алгоритм (K-means?)
Запустить
Интерпретировать вручную — что значит этот кластер?
Использовать результат (метки для dashboard, для targeted кампаний)

Semi-supervised

Когда часть данных labeled, часть — нет.

Пример: 1000 размеченных + 100 000 неразмеченных документов. Обучаем сначала на малом labeled, потом propagate labels на unlabeled.

Техники: Pseudo-labeling, self-training, graph-based.

Self-supervised

Новая школа (2018+). Labels генерируются из самих данных.

Пример: BERT — модель предсказывает пропущенное слово в предложении. Labels (пропущенное слово) есть прямо в тексте.

Революция: не нужны human labels → огромные датасеты.

Reinforcement learning (4-й тип)

Нет labels. Агент взаимодействует со средой, получает reward.

AlphaGo, GPT RLHF, recommender systems
Не изучают прямо по X→y, а оптимизируют долгосрочный reward.

В продуктовой аналитике

Supervised примеры

Churn prediction
LTV forecasting
Lead scoring
Conversion probability
Fraud detection

Unsupervised примеры

Customer segmentation (K-Means на behavioral features)
Anomaly detection в metrics
Grouping похожих товаров
Topic modeling на отзывах

На собесе

«Разница?» Supervised — X и y. Unsupervised — только X.

«Примеры?» Churn = supervised. Segmentation = unsupervised.

«Как оценивать unsupervised?» Нет готовой метрики. Domain knowledge + silhouette / elbow для кластеризации.

«K-means supervised?» Нет, unsupervised — не нужны готовые labels.

Частые ошибки

1. Unsupervised без интерпретации

K-Means дал 5 кластеров → хорошо, но ЧТО это за группы? Без этого бесполезно.

2. Supervised без test set

Обучили, «отлично работает на train» → скорее всего overfit.

3. Clustering как замена segmentation

Rule-based segmentation часто лучше: понятнее, стабильнее.

4. Игнорировать semi-supervised

Если есть много unlabeled — они могут улучшить модель.

Связанные темы

FAQ

Semi-supervised vs weakly-supervised?

Semi = часть labeled. Weakly = labels noisy / не точные.

Unsupervised быстрее?

Обычно быстрее trainить, но интерпретация дольше.

Можно без labels совсем?

Да, unsupervised и self-supervised — без human labels.

Что учить первым?

Supervised. Фундамент ML.

Тренируйте ML — откройте тренажёр с 1500+ вопросами для собесов.

Тренироваться в Telegram