7 мая 2026 г.·2 мин чтения

RAG evaluation на собеседовании Data Scientist

Q: Это официальная информация?

Нет. Статья основана на документации RAGAS. --- Тренируйте Data Science — [откройте тренажёр](https://t.me/kariernik_bot/app?startapp=web_blog_rag-eval-na-sobesedovanii-ds) с 1500+ вопросами для собесов.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Содержание:

Зачем RAG eval
Retrieval metrics
Generation metrics
End-to-end metrics
RAGAS
Golden set
Связанные темы
FAQ

Зачем RAG eval

RAG имеет 2 components:

Retrieval — поиск relevant docs.
Generation — answer based on retrieved.

Каждый может fail. Eval каждой stage independently.

Retrieval metrics

Recall@K. Доля right docs в top-K.

Precision@K. Сколько в top-K really relevant.

MRR. Position первого relevant.

NDCG. Graded relevance.

Требуется labeled data: query → relevant doc IDs.

Generation metrics

Faithfulness. Answer based на retrieved context (не hallucinated).

Answer relevancy. Answer addresses question.

Coherence. Grammatically / logically right.

Часто evaluated через LLM-as-judge:

"Given context: ... Answer: ...
Rate 1-5: does answer use only information from context?"

End-to-end metrics

Correctness. Comparing к ground truth answer.

Helpfulness. User-perceived (через ratings, или LLM judge).

Latency. End-to-end time.

Cost. Tokens API / compute.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

RAGAS

Framework для RAG eval.

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision

dataset = ...  # questions + answers + retrieved + ground_truth
result = evaluate(dataset, metrics=[faithfulness, answer_relevancy, context_precision])

Standard для RAG benchmarking.

Golden set

Manually curated test set.

Size. 100-1000 quality examples enough для regression testing.

Coverage. Diverse domains, hard cases, edge cases.

Use:

CI eval на каждое change.
Track regression.
Compare model variants.

Без golden set — eval purely subjective.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на документации RAGAS.

Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.