7 мая 2026 г.·3 мин чтения

Hallucinations и LLM evals на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Содержание:

Зачем разбирать на собесе
Что такое hallucination
Causes hallucination
Mitigation
LLM-as-judge
RAGAS
Standard benchmarks
Связанные темы
FAQ

Зачем разбирать на собесе

Hallucinations — главная проблема LLM в production. На собесе DS / LLM: «как detect hallucination», «evaluation подходы».

Что такое hallucination

LLM генерирует ответ confidence-ly, но факт неверен / выдуман.

Виды:

Factual. «Эйфелева башня в Лондоне».
Source attribution. «Согласно RFC 9999...» (нет такого).
Coherent но неправильный. Логичный текст, факт ложный.

Особенно опасно — confidence высокая. User trusts.

Causes hallucination

Out-of-distribution. Запрос — outside training data.
Outdated knowledge. Cut-off training, новые события.
Reasoning failures. Multi-step logic ошибки.
Decoding randomness. Sampling temperature высокий.
Insufficient context. RAG returned wrong / missing chunks.

Mitigation

RAG. Retrieve relevant docs → ground generation в them.

Citations. LLM cites sources → easier verify.

Lower temperature. Deterministic vs creative.

Chain-of-thought. Reasoning step by step — improves accuracy на reasoning tasks.

Verification step. Second LLM checks consistency / cites.

Fine-tuning. RLHF for honesty.

Constrained generation. JSON schema, regex для format.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

LLM-as-judge

Используем большую LLM для оценки small LLM output.

Pros: Scalable, no humans needed для каждого test.

Cons:

Bias к own family (GPT-4 favors GPT-style).
Inconsistency.
Cost (API calls).

Best practices:

Use strong model as judge (GPT-4, Claude Opus).
Provide rubric / criteria.
Multiple judges, average.

RAGAS

Framework для RAG evaluation.

Метрики:

Faithfulness. Соответствует ли ответ retrieved context.
Answer relevancy. Релевантен ли ответ question.
Context precision. Релевантный context на top-K.
Context recall. Все ли need context retrieved.

from ragas import evaluate
result = evaluate(dataset, metrics=[faithfulness, answer_relevancy])

Standard benchmarks

MMLU. Массивный multi-choice (история, наука, право).

HellaSwag. Common sense reasoning.

HumanEval. Code generation.

MT-Bench. Open-ended chat. LLM-as-judge.

Chatbot Arena. Human pairwise comparisons.

GSM8K. Math word problems.

Russian MERA, Yandex Bench. Русские benchmarks.

В production обычно — custom benchmark для domain.

Связанные темы

FAQ

Можно полностью устранить hallucinations?

Нет. Уменьшить вероятность — да (RAG, fine-tune, prompts). Полностью — пока не научились.

Это официальная информация?

Нет. Статья основана на документации RAGAS, papers по LLM evaluation.

Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.