Hallucinations и LLM evals на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

Hallucinations — главная проблема LLM в production. На собесе DS / LLM: «как detect hallucination», «evaluation подходы».

Что такое hallucination

LLM генерирует ответ confidence-ly, но факт неверен / выдуман.

Виды:

  • Factual. «Эйфелева башня в Лондоне».
  • Source attribution. «Согласно RFC 9999...» (нет такого).
  • Coherent но неправильный. Логичный текст, факт ложный.

Особенно опасно — confidence высокая. User trusts.

Causes hallucination

  • Out-of-distribution. Запрос — outside training data.
  • Outdated knowledge. Cut-off training, новые события.
  • Reasoning failures. Multi-step logic ошибки.
  • Decoding randomness. Sampling temperature высокий.
  • Insufficient context. RAG returned wrong / missing chunks.

Mitigation

RAG. Retrieve relevant docs → ground generation в them.

Citations. LLM cites sources → easier verify.

Lower temperature. Deterministic vs creative.

Chain-of-thought. Reasoning step by step — improves accuracy на reasoning tasks.

Verification step. Second LLM checks consistency / cites.

Fine-tuning. RLHF for honesty.

Constrained generation. JSON schema, regex для format.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

LLM-as-judge

Используем большую LLM для оценки small LLM output.

Pros: Scalable, no humans needed для каждого test.

Cons:

  • Bias к own family (GPT-4 favors GPT-style).
  • Inconsistency.
  • Cost (API calls).

Best practices:

  • Use strong model as judge (GPT-4, Claude Opus).
  • Provide rubric / criteria.
  • Multiple judges, average.

RAGAS

Framework для RAG evaluation.

Метрики:

  • Faithfulness. Соответствует ли ответ retrieved context.
  • Answer relevancy. Релевантен ли ответ question.
  • Context precision. Релевантный context на top-K.
  • Context recall. Все ли need context retrieved.
from ragas import evaluate
result = evaluate(dataset, metrics=[faithfulness, answer_relevancy])

Standard benchmarks

MMLU. Массивный multi-choice (история, наука, право).

HellaSwag. Common sense reasoning.

HumanEval. Code generation.

MT-Bench. Open-ended chat. LLM-as-judge.

Chatbot Arena. Human pairwise comparisons.

GSM8K. Math word problems.

Russian MERA, Yandex Bench. Русские benchmarks.

В production обычно — custom benchmark для domain.

Связанные темы

FAQ

Можно полностью устранить hallucinations?

Нет. Уменьшить вероятность — да (RAG, fine-tune, prompts). Полностью — пока не научились.

Это официальная информация?

Нет. Статья основана на документации RAGAS, papers по LLM evaluation.


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.