Supervised vs unsupervised learning
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Зачем знать разницу
На любом собеседовании по ML первый вопрос — «что такое supervised и unsupervised learning». Junior отвечает «первое с метками, второе без». Middle объясняет с примерами. Senior обсудит nuances — self-supervised, semi-supervised, RL.
В продуктовой аналитике это критично. Churn prediction — supervised (есть labels). Customer segmentation — unsupervised (нет готовых групп). Recommendation — гибрид. От типа зависит подход к данным и выбор алгоритма.
В статье:
- Короткий ответ
- Примеры supervised (regression, classification)
- Примеры unsupervised (clustering, dimensionality reduction)
- Semi-supervised и self-supervised (современное)
- Когда какой тип выбрать
Короткий ответ
- Supervised: обучаемся на parah (X, y) — features и target. Модель учится предсказывать y по X.
- Unsupervised: есть только X (без y). Модель ищет структуру / паттерны.
Supervised
Типы задач
Regression — предсказать число:
- Цена дома
- LTV клиента
- Time до события
Classification — предсказать категорию:
- Churn / no churn
- Spam / не spam
- Категория товара
Алгоритмы
- Linear / Logistic Regression
- Decision Trees
- Random Forest
- Gradient Boosting (XGBoost, LightGBM, CatBoost)
- Neural Networks
- SVM
- k-NN
Что нужно
- Labeled data: X + y (сотни-тысячи примеров)
- Train/test split: не переобучиться
- Evaluation metric: RMSE / MAE для regression, accuracy / F1 / AUC для classification
Unsupervised
Типы задач
Clustering — группировка:
- RFM-сегментация клиентов
- Customer personas
Dimensionality reduction — сжатие:
- PCA для feature engineering
- t-SNE / UMAP для визуализации
Anomaly detection:
- Fraud
- System failures
Association rules:
- Market basket analysis («купили X → купят Y»)
Алгоритмы
- K-Means, DBSCAN, Hierarchical clustering
- PCA, t-SNE, UMAP
- Isolation Forest, Autoencoders (anomaly)
- Apriori, FP-Growth (association)
Что нужно
- Только X (features)
- Интерпретация результата — человеческая работа (нет гарантии качества)
- Доменные знания для валидации
Различия в workflow
Supervised
- Собрать labeled data
- Train / test split
- Обучить модель
- Оценить на test (accuracy / AUC)
- Deploy
Unsupervised
- Собрать X
- Выбрать алгоритм (K-means?)
- Запустить
- Интерпретировать вручную — что значит этот кластер?
- Использовать результат (метки для dashboard, для targeted кампаний)
Semi-supervised
Когда часть данных labeled, часть — нет.
Пример: 1000 размеченных + 100 000 неразмеченных документов. Обучаем сначала на малом labeled, потом propagate labels на unlabeled.
Техники: Pseudo-labeling, self-training, graph-based.
Self-supervised
Новая школа (2018+). Labels генерируются из самих данных.
Пример: BERT — модель предсказывает пропущенное слово в предложении. Labels (пропущенное слово) есть прямо в тексте.
Революция: не нужны human labels → огромные датасеты.
Reinforcement learning (4-й тип)
Нет labels. Агент взаимодействует со средой, получает reward.
- AlphaGo, GPT RLHF, recommender systems
- Не изучают прямо по X→y, а оптимизируют долгосрочный reward.
В продуктовой аналитике
Supervised примеры
- Churn prediction
- LTV forecasting
- Lead scoring
- Conversion probability
- Fraud detection
Unsupervised примеры
- Customer segmentation (K-Means на behavioral features)
- Anomaly detection в metrics
- Grouping похожих товаров
- Topic modeling на отзывах
На собесе
«Разница?» Supervised — X и y. Unsupervised — только X.
«Примеры?» Churn = supervised. Segmentation = unsupervised.
«Как оценивать unsupervised?» Нет готовой метрики. Domain knowledge + silhouette / elbow для кластеризации.
«K-means supervised?» Нет, unsupervised — не нужны готовые labels.
Частые ошибки
1. Unsupervised без интерпретации
K-Means дал 5 кластеров → хорошо, но ЧТО это за группы? Без этого бесполезно.
2. Supervised без test set
Обучили, «отлично работает на train» → скорее всего overfit.
3. Clustering как замена segmentation
Rule-based segmentation часто лучше: понятнее, стабильнее.
4. Игнорировать semi-supervised
Если есть много unlabeled — они могут улучшить модель.
Связанные темы
- Что такое clustering простыми словами
- Линейная регрессия
- Logistic regression
- Random Forest
- Gradient boosting
FAQ
Semi-supervised vs weakly-supervised?
Semi = часть labeled. Weakly = labels noisy / не точные.
Unsupervised быстрее?
Обычно быстрее trainить, но интерпретация дольше.
Можно без labels совсем?
Да, unsupervised и self-supervised — без human labels.
Что учить первым?
Supervised. Фундамент ML.
Тренируйте ML — откройте тренажёр с 1500+ вопросами для собесов.