Оценка качества embeddings на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Intrinsic eval

Properties embedding space без specific task.

Similarity tasks. Annotated word / sentence pairs с similarity scores. Compute cosine между embeddings, correlate с human ratings.

Analogies. «king - man + woman ≈ queen». Word2vec early benchmark.

Clustering. Words / docs cluster по semantic categories.

Cons. Не reflect actual task performance.

Extrinsic eval

Use embeddings в downstream task.

Classification. Train classifier на embeddings → measure accuracy.

Retrieval. NDCG, MRR на retrieval task.

STS (Semantic Textual Similarity). Predict similarity scores.

Pros. Reflects real-world utility.

Cons. Specific к use case — different task may show different ranking embeddings.

MTEB

Massive Text Embedding Benchmark. Hugging Face leaderboard.

50+ tasks, 8 categories:

  • Classification.
  • Clustering.
  • Pair classification.
  • Reranking.
  • Retrieval.
  • STS.
  • Summarization.
  • Bitext mining.

Standard benchmark — newest models compete.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Domain-specific

Generic benchmarks miss domain quirks.

Build custom eval set. 100-1000 representative pairs (similar / not).

Measure cosine similarity distribution. Should разделять similar from not.

Retrieval metrics. На golden retrieval задаче — measure recall.

В medical / legal / финансы — domain-specific embeddings significantly better чем generic.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на работах Muennighoff 2022 (MTEB).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.