YOLO и DETR на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Object detection — топовая задача CV. На собесе DS / CV: «отличие YOLO и DETR», «зачем NMS», «что такое anchor». Senior — нюансы FPN, multi-scale.
Two-stage: R-CNN family
R-CNN (2014). Region proposal (selective search) → CNN feature extraction для каждого региона → классификация.
Fast R-CNN (2015). Один forward pass через CNN, RoI pooling.
Faster R-CNN (2015). RPN (Region Proposal Network) заменил selective search. End-to-end обучение.
Mask R-CNN (2017). Faster R-CNN + segmentation mask branch.
Свойства two-stage:
- Высокая accuracy.
- Медленный inference (50ms+).
- Хорошо для accuracy-critical задач.
Single-stage: YOLO, SSD
YOLO (You Only Look Once). Один forward pass, grid + anchor boxes, classification + bbox regression одновременно.
Эволюция:
- YOLO v1 (2016) — оригинал.
- YOLOv3 — multi-scale predictions.
- YOLOv5 — popular open source.
- YOLOv8/v9/v10 (2024-2025) — SOTA на edge.
SSD (Single Shot Detector). Конкурент YOLO, multi-scale feature maps.
Свойства single-stage:
- Быстрый inference (10ms на GPU).
- Real-time подходит.
- Меньше accuracy на маленьких объектах.
DETR: transformer-based
DETR (Facebook 2020). Object detection через Transformer encoder-decoder.
Идея:
- CNN backbone → features → Transformer encoder.
- Decoder с N learnable «object queries» → каждая выдаёт bbox + class.
- Bipartite matching loss (Hungarian) — без NMS.
Свойства:
- End-to-end.
- Без anchors, без NMS.
- Слабее на маленьких объектах (улучшено в Deformable DETR).
- Долгое обучение (500 epochs в оригинале).
Современные:
- Deformable DETR — multi-scale + deformable attention.
- DINO (2022) — state-of-the-art.
- Co-DETR (2023).
Anchor-based vs anchor-free
Anchor-based. Pre-defined boxes разных aspect ratios на каждой grid-cell. Модель регрессирует поправки.
Минусы: нужно выбирать anchor sizes под датасет.
Anchor-free. Модель напрямую предсказывает bbox center + width + height.
Тренды: anchor-free становятся популярнее (FCOS, CenterNet, YOLOv8). Проще, меньше hyperparameters.
Метрики: mAP, IoU
IoU (Intersection over Union). Перекрытие между predicted bbox и ground truth.
IoU = |A ∩ B| / |A ∪ B|Predicted bbox считается true positive, если IoU ≥ threshold (часто 0.5).
mAP (mean Average Precision).
- На каждый класс — AP (как PR-AUC).
- mAP — среднее по классам.
- mAP@0.5 — IoU threshold 0.5.
- mAP@0.5:0.95 (COCO mAP) — среднее по threshold от 0.5 до 0.95 шагом 0.05.
Расчёт:
- Для каждого предсказания — TP (matched ground truth) или FP.
- Сортировка по confidence.
- Кривая precision-recall.
- AP = площадь под PR-кривой.
Когда что выбирать
Real-time / edge:
- YOLOv8/v9/v10. Лёгкие, быстрые.
- MobileNet-SSD для очень слабого hardware.
Highest accuracy:
- DINO / Co-DETR.
- Faster R-CNN с большим backbone.
С нуля без датасета:
- Foundation models (Grounding DINO, OWL-ViT) с zero-shot.
Production constraint:
- TensorRT-friendly: YOLO семейство.
- ONNX / cross-platform: большинство стандартных архитектур.
Частые ошибки
Не делать NMS. Models в anchor-based видят сотни bbox на тот же объект. NMS (Non-Max Suppression) фильтрует.
Игнорировать class imbalance. Background dominates. Focal Loss решает (RetinaNet).
Сравнивать YOLO и DETR по accuracy без mAP threshold. mAP@0.5 vs mAP@0.5:0.95 — разные числа.
Брать модель из 2018 в 2026. Faster R-CNN был SOTA. Сейчас — DINO / YOLOv9. Эволюция быстрая.
Тренировать DETR с нуля 500 epochs. Дорого. Pre-trained + fine-tune.
Связанные темы
- CNN-архитектуры на собесе DS
- Deep Learning на собесе DS
- Loss функции на собесе DS
- Class imbalance на собесе DS
- Подготовка к собесу Data Scientist
FAQ
YOLO коммерческое использование?
YOLOv5/v8 от Ultralytics — AGPL license, для commercial — нужна лицензия. YOLOv7 / YOLOX / альтернативы — более либеральные.
Можно ли использовать DETR на edge?
Тяжело — Transformer compute-heavy. Mobile-friendly альтернативы (YOLO-NAS, RT-DETR).
Это официальная информация?
Нет. Статья основана на оригинальных работах (Girshick R-CNN, Redmon YOLO, Carion DETR).
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.