Hallucinations и LLM evals на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
Hallucinations — главная проблема LLM в production. На собесе DS / LLM: «как detect hallucination», «evaluation подходы».
Что такое hallucination
LLM генерирует ответ confidence-ly, но факт неверен / выдуман.
Виды:
- Factual. «Эйфелева башня в Лондоне».
- Source attribution. «Согласно RFC 9999...» (нет такого).
- Coherent но неправильный. Логичный текст, факт ложный.
Особенно опасно — confidence высокая. User trusts.
Causes hallucination
- Out-of-distribution. Запрос — outside training data.
- Outdated knowledge. Cut-off training, новые события.
- Reasoning failures. Multi-step logic ошибки.
- Decoding randomness. Sampling temperature высокий.
- Insufficient context. RAG returned wrong / missing chunks.
Mitigation
RAG. Retrieve relevant docs → ground generation в them.
Citations. LLM cites sources → easier verify.
Lower temperature. Deterministic vs creative.
Chain-of-thought. Reasoning step by step — improves accuracy на reasoning tasks.
Verification step. Second LLM checks consistency / cites.
Fine-tuning. RLHF for honesty.
Constrained generation. JSON schema, regex для format.
LLM-as-judge
Используем большую LLM для оценки small LLM output.
Pros: Scalable, no humans needed для каждого test.
Cons:
- Bias к own family (GPT-4 favors GPT-style).
- Inconsistency.
- Cost (API calls).
Best practices:
- Use strong model as judge (GPT-4, Claude Opus).
- Provide rubric / criteria.
- Multiple judges, average.
RAGAS
Framework для RAG evaluation.
Метрики:
- Faithfulness. Соответствует ли ответ retrieved context.
- Answer relevancy. Релевантен ли ответ question.
- Context precision. Релевантный context на top-K.
- Context recall. Все ли need context retrieved.
from ragas import evaluate
result = evaluate(dataset, metrics=[faithfulness, answer_relevancy])Standard benchmarks
MMLU. Массивный multi-choice (история, наука, право).
HellaSwag. Common sense reasoning.
HumanEval. Code generation.
MT-Bench. Open-ended chat. LLM-as-judge.
Chatbot Arena. Human pairwise comparisons.
GSM8K. Math word problems.
Russian MERA, Yandex Bench. Русские benchmarks.
В production обычно — custom benchmark для domain.
Связанные темы
- BERT vs GPT для DS
- RAG на собесе DS
- AI agents для DS
- RLHF и DPO для DS
- Подготовка к собесу Data Scientist
FAQ
Можно полностью устранить hallucinations?
Нет. Уменьшить вероятность — да (RAG, fine-tune, prompts). Полностью — пока не научились.
Это официальная информация?
Нет. Статья основана на документации RAGAS, papers по LLM evaluation.
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.