7 мая 2026 г.·2 мин чтения

Оценка качества embeddings на собеседовании Data Scientist

Q: Это официальная информация?

Нет. Статья основана на работах Muennighoff 2022 (MTEB). --- Тренируйте Data Science — [откройте тренажёр](https://t.me/kariernik_bot/app?startapp=web_blog_embeddings-quality-na-sobesedovanii-ds) с 1500+ вопросами для собесов.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Содержание:

Intrinsic eval
Extrinsic eval
MTEB
Domain-specific
Связанные темы
FAQ

Intrinsic eval

Properties embedding space без specific task.

Similarity tasks. Annotated word / sentence pairs с similarity scores. Compute cosine между embeddings, correlate с human ratings.

Analogies. «king - man + woman ≈ queen». Word2vec early benchmark.

Clustering. Words / docs cluster по semantic categories.

Cons. Не reflect actual task performance.

Extrinsic eval

Use embeddings в downstream task.

Classification. Train classifier на embeddings → measure accuracy.

Retrieval. NDCG, MRR на retrieval task.

STS (Semantic Textual Similarity). Predict similarity scores.

Pros. Reflects real-world utility.

Cons. Specific к use case — different task may show different ranking embeddings.

MTEB

Massive Text Embedding Benchmark. Hugging Face leaderboard.

50+ tasks, 8 categories:

Classification.
Clustering.
Pair classification.
Reranking.
Retrieval.
STS.
Summarization.
Bitext mining.

Standard benchmark — newest models compete.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Domain-specific

Generic benchmarks miss domain quirks.

Build custom eval set. 100-1000 representative pairs (similar / not).

Measure cosine similarity distribution. Should разделять similar from not.

Retrieval metrics. На golden retrieval задаче — measure recall.

В medical / legal / финансы — domain-specific embeddings significantly better чем generic.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на работах Muennighoff 2022 (MTEB).

Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.