7 мая 2026 г.·2 мин чтения

VLM evaluation на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Содержание:

Зачем eval VLM
VQA benchmarks
Document understanding
Specific capabilities
Custom evaluation
Связанные темы
FAQ

Зачем eval VLM

VLM widely используются — но capabilities differ. Eval — measure for use case.

VQA benchmarks

VQAv2. Visual Question Answering — open-ended вопросы.

OK-VQA. Outside-knowledge questions (require world knowledge помимо image).

ScienceQA. Multimodal science questions.

TextVQA. Questions about text в images.

Document understanding

DocVQA. Document QA (forms, receipts, reports).

ChartQA. Charts / graphs reading.

InfographicVQA. Infographics.

RuDocVQA. Russian docs (если specific to RU).

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Specific capabilities

MMMU. Multimodal Multidiscipline Understanding.

MathVista. Visual math.

MMVet. Comprehensive — knowledge, reasoning, OCR, math.

RealWorldQA. Real-world spatial reasoning.

Important — каждый model has weaknesses. GPT-4V sometimes fails counting, Claude — fails specific OCR cases.

Custom evaluation

Для production — golden set domain-specific.

Pipeline:

Curate 100-1000 representative cases.
Annotate ground truth answers.
Run candidate models.
Score через LLM-judge или human.
Track regressions.

В domains (medical, legal, financial) — generic benchmarks insufficient. Custom mandatory.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на VLM benchmarks papers (MMMU, MathVista, etc).

Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.