Self-supervised learning для CV на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем SSL для CV

Labeled images expensive. Pre-training на huge unlabeled — strong representations.

ImageNet pretrained — old standard. SSL methods — comparable / better.

SimCLR

Contrastive — same image, two augmented views, close embeddings.

x → augment → x', x''
encoder(x'), encoder(x'') → close in embedding space.

InfoNCE loss с large batch.

Pros: strong baseline.

Cons: large batch needed.

MoCo

Memory bank для negatives. No need huge batches.

Maintains queue эмбеддингов previous batches → negatives.

v2 / v3. Refined SimCLR + MoCo ideas. Strong performance.

MAE

Masked Autoencoder. Mask 75% image patches → encoder sees visible only → decoder reconstructs.

Image → split в patches → mask 75% → encoder visible → decoder reconstructs masked.

Pros: simple, scales hugely. SOTA on ImageNet linear probe.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

DINO

Self-distillation. Student / teacher — momentum updated.

Emergent property. Self-attention head shows semantic segmentation без supervision. Surprising.

DINOv2 — strong open-source backbone, used widely.

Production usage

В 2026:

  • DINO / DINOv2 — most used SSL backbone.
  • CLIP — multimodal SSL.
  • Custom domain SSL — train на domain images (medical, satellite).

Workflow.

  1. SSL pretrain на huge data.
  2. Fine-tune на small labeled task.
  3. Better чем from-scratch / ImageNet pretraining.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на работах Chen 2020 (SimCLR), He 2020 (MoCo), He 2022 (MAE), Caron 2021 (DINO).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.