YOLO и DETR на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

Object detection — топовая задача CV. На собесе DS / CV: «отличие YOLO и DETR», «зачем NMS», «что такое anchor». Senior — нюансы FPN, multi-scale.

Two-stage: R-CNN family

R-CNN (2014). Region proposal (selective search) → CNN feature extraction для каждого региона → классификация.

Fast R-CNN (2015). Один forward pass через CNN, RoI pooling.

Faster R-CNN (2015). RPN (Region Proposal Network) заменил selective search. End-to-end обучение.

Mask R-CNN (2017). Faster R-CNN + segmentation mask branch.

Свойства two-stage:

  • Высокая accuracy.
  • Медленный inference (50ms+).
  • Хорошо для accuracy-critical задач.

Single-stage: YOLO, SSD

YOLO (You Only Look Once). Один forward pass, grid + anchor boxes, classification + bbox regression одновременно.

Эволюция:

  • YOLO v1 (2016) — оригинал.
  • YOLOv3 — multi-scale predictions.
  • YOLOv5 — popular open source.
  • YOLOv8/v9/v10 (2024-2025) — SOTA на edge.

SSD (Single Shot Detector). Конкурент YOLO, multi-scale feature maps.

Свойства single-stage:

  • Быстрый inference (10ms на GPU).
  • Real-time подходит.
  • Меньше accuracy на маленьких объектах.

DETR: transformer-based

DETR (Facebook 2020). Object detection через Transformer encoder-decoder.

Идея:

  • CNN backbone → features → Transformer encoder.
  • Decoder с N learnable «object queries» → каждая выдаёт bbox + class.
  • Bipartite matching loss (Hungarian) — без NMS.

Свойства:

  • End-to-end.
  • Без anchors, без NMS.
  • Слабее на маленьких объектах (улучшено в Deformable DETR).
  • Долгое обучение (500 epochs в оригинале).

Современные:

  • Deformable DETR — multi-scale + deformable attention.
  • DINO (2022) — state-of-the-art.
  • Co-DETR (2023).

Anchor-based vs anchor-free

Anchor-based. Pre-defined boxes разных aspect ratios на каждой grid-cell. Модель регрессирует поправки.

Минусы: нужно выбирать anchor sizes под датасет.

Anchor-free. Модель напрямую предсказывает bbox center + width + height.

Тренды: anchor-free становятся популярнее (FCOS, CenterNet, YOLOv8). Проще, меньше hyperparameters.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Метрики: mAP, IoU

IoU (Intersection over Union). Перекрытие между predicted bbox и ground truth.

IoU = |A ∩ B| / |A ∪ B|

Predicted bbox считается true positive, если IoU ≥ threshold (часто 0.5).

mAP (mean Average Precision).

  • На каждый класс — AP (как PR-AUC).
  • mAP — среднее по классам.
  • mAP@0.5 — IoU threshold 0.5.
  • mAP@0.5:0.95 (COCO mAP) — среднее по threshold от 0.5 до 0.95 шагом 0.05.

Расчёт:

  1. Для каждого предсказания — TP (matched ground truth) или FP.
  2. Сортировка по confidence.
  3. Кривая precision-recall.
  4. AP = площадь под PR-кривой.

Когда что выбирать

Real-time / edge:

  • YOLOv8/v9/v10. Лёгкие, быстрые.
  • MobileNet-SSD для очень слабого hardware.

Highest accuracy:

  • DINO / Co-DETR.
  • Faster R-CNN с большим backbone.

С нуля без датасета:

  • Foundation models (Grounding DINO, OWL-ViT) с zero-shot.

Production constraint:

  • TensorRT-friendly: YOLO семейство.
  • ONNX / cross-platform: большинство стандартных архитектур.

Частые ошибки

Не делать NMS. Models в anchor-based видят сотни bbox на тот же объект. NMS (Non-Max Suppression) фильтрует.

Игнорировать class imbalance. Background dominates. Focal Loss решает (RetinaNet).

Сравнивать YOLO и DETR по accuracy без mAP threshold. mAP@0.5 vs mAP@0.5:0.95 — разные числа.

Брать модель из 2018 в 2026. Faster R-CNN был SOTA. Сейчас — DINO / YOLOv9. Эволюция быстрая.

Тренировать DETR с нуля 500 epochs. Дорого. Pre-trained + fine-tune.

Связанные темы

FAQ

YOLO коммерческое использование?

YOLOv5/v8 от Ultralytics — AGPL license, для commercial — нужна лицензия. YOLOv7 / YOLOX / альтернативы — более либеральные.

Можно ли использовать DETR на edge?

Тяжело — Transformer compute-heavy. Mobile-friendly альтернативы (YOLO-NAS, RT-DETR).

Это официальная информация?

Нет. Статья основана на оригинальных работах (Girshick R-CNN, Redmon YOLO, Carion DETR).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.