减少LLM幻觉：面向生产应用的实用技术

解决已部署AI系统中最持久的可靠性问题的工程方案

高级约 32 分钟

减少LLM幻觉：面向生产应用的实用技术

解决已部署AI系统中最持久的可靠性问题的工程方案

LLM幻觉——生成自信但虚假的信息——是生产级AI应用中的主要可靠性挑战。本指南涵盖幻觉的根本原因、检测策略（事实核查层、自一致性检查、置信度校准）、缓解技术（RAG、受控生成、思维链验证）以及生产系统的监控方法。包含不同模型和技术组合下幻觉率的基准数据。

hallucination LLM reliability RAG AI accuracy fact-checking

减少LLM幻觉：面向生产应用的实用技术

理解LLM为何产生幻觉

幻觉并非需要修复的缺陷——它是语言模型工作方式的基本属性。LLM通过根据上下文预测下一个最可能的token来生成合理的文本。“合理”与“真实”并非同一回事。

根本原因：

训练数据缺口：如果信息不在训练数据中，模型无法知晓，但可能会生成听起来合理的内容。

知识截止日期：训练截止日期之后的事件是未知的，但模型可能错误地从截止前的模式中泛化。

过度自信生成：模型并未校准为说“我不知道”——它们被训练为生成连贯的补全。

指令遵循与准确性的权衡：当被要求生成内容时，模型可能为了响应质量而牺牲准确性。

长程推理：在复杂的多步推理中，错误会累积。

幻觉类型

事实性幻觉：将虚假事实陈述为真实。“玛丽·居里获得了三项诺贝尔奖”（她获得了两项）。

捏造引用：生成看似合理但实际不存在的研究论文、法院案例、新闻文章。经典案例：律师提交AI生成的摘要，其中包含捏造的案例引用。

实体混淆：混淆相似实体。将关于人物B的事实陈述为关于人物A。

时间混淆：混淆时间线，描述已发生变化的事物的当前状态。

指令幻觉：声称执行了无法执行的操作（在无工具访问时浏览URL，错误计算精确值）。

检测策略

自一致性检查

多次生成相同答案（temperature > 0），比较响应。高方差 = 低置信度。多数投票聚合可提高准确性。

实现：对于事实性问答，生成3-5个响应。提取事实性声明。统计一致性。标记一致性低于80%的声明为不确定。

适用于：数字事实、专有名词、具体声明。不适用于：依赖意见的内容、复杂推理。

基于来源的验证

对于RAG应用：验证模型的答案是否得到检索上下文的支持。

方法：生成答案后，运行验证提示：“给定以下上下文，此答案是否包含任何上下文不支持的声明？列出不支持的声明：[答案] [上下文]”

工具：TruLens（基于来源的指标）、RAGAS（答案忠实度指标）、自定义验证链。

外部事实核查

对于事实性声明：通过权威来源验证。

工具：搜索API集成（通过网络搜索验证事实性声明）、Perplexity API（返回可验证的引用）、Wolfram Alpha（用于数学/科学事实）、Wikipedia API（用于命名实体、历史事实）。

工作流程：从响应中提取事实性声明 → 分类为可验证/不可验证 → 验证可验证声明 → 标记不确定声明供人工审核。

置信度校准

指示模型明确表达不确定性：“如果你对某个事实不确定，请说‘我认为’或‘我不确定’。如果你不知道，请直接说明。”

更好的做法：结构化不确定性输出。不是给出确定的陈述，而是输出：{claim: "...", confidence: "high/medium/low", needs_verification: true/false}

研究发现：使用显式不确定性提示的模型，自信但错误的答案减少30-50%，而自信且正确的答案略有减少。

缓解技术

RAG：主要缓解手段

检索增强生成将模型响应基于经过验证的源文档：

从可信知识库检索相关上下文

指示模型仅基于提供的上下文作答

包含来源归属以便验证

RAG有效性：对于依赖知识的任务，与纯生成相比，幻觉率降低60-80%。对于文档完善、事实明确的领域，若存在良好的源文档，几乎可以消除幻觉。

局限性：当检索到的上下文错误或不完整时，RAG无法防止幻觉。源质量至关重要。

受控生成

将模型输出限制为特定格式或选项：

多项选择（模型从提供的选项中选择，而非自由生成）

结构化提取（从文本中填充特定字段，而非自由总结）

模板约束输出（模型填充模板槽位，不能添加任意内容）

最适合：分类任务、信息提取、表单填写。通过消除生成不受约束内容的机会，大幅减少幻觉。

思维链验证

在最终答案前要求显式推理：

生成逐步推理

检查每个推理步骤的合理性

验证推理支持结论

从经过验证的推理生成最终答案

研究表明，与直接生成答案相比，事实错误减少25-40%。显式推理暴露了直接响应中可能隐藏的错误。

宪法AI与自我批评

初始生成后，提示模型批评自己的响应： “检查你之前的响应。识别任何可能事实不正确或不确定的声明。如有必要，进行修订。”

对于捕捉明显错误有效。对于自信但错误的声明效果较差（模型不知道它不知道什么）。

生产监控

幻觉率跟踪

为你的用例定义幻觉指标：

测试集上的事实准确性（与真实值比较）

基于来源的得分（对于RAG：声明中受检索上下文支持的百分比）

引用准确性（对于输出引用的系统：真实且正确的引用百分比）

每月在保留测试集上进行基准测试。如果幻觉率显著上升，发出警报。

人工审核抽样

对于高风险应用：对AI输出样本进行人在回路审核。

抽样策略：随机样本（基线）+ 偏向标记输出（AI不确定性、异常查询）+ 对抗性测试用例。

审核率：通常为生产输出的1-5%，用于持续质量监控。

用户反馈集成

对AI响应的赞/踩是有价值的信号。将负面反馈路由到审核队列。分析模式：哪些查询类型、哪些主题、哪些用户触发更多更正。

按模型划分的幻觉基准（2025年）

基于TruthfulQA及类似基准：

GPT-4o：通用知识真实性约85%

Claude 3.5 Sonnet：约87%

Gemini 1.5 Pro：约83%

Llama 3.1 70B：约78%

在领域特定知识上使用RAG基础：

所有模型提升10-20个百分点

检索质量成为主要决定因素

背景说明：“真实性”基准分数并不直接转化为生产中的幻觉率，后者因用例、提示设计和检索质量而有很大差异。请针对你的具体用例运行自己的评估。

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

减少LLM幻觉：面向生产应用的实用技术

减少LLM幻觉：面向生产应用的实用技术

理解LLM为何产生幻觉

幻觉类型

检测策略

自一致性检查

基于来源的验证

外部事实核查

置信度校准

缓解技术

RAG：主要缓解手段

受控生成

思维链验证

宪法AI与自我批评

生产监控

幻觉率跟踪

人工审核抽样

用户反馈集成

按模型划分的幻觉基准（2025年）

Documentation

Getting Started

Learn more