陈金友分享 http://blog.sciencenet.cn/u/chenjy086 科研

博文

大语言模型幻觉的评估、检测与缓解

已有 402 次阅读 2025-7-22 15:27 |系统分类:论文交流

大语言模型幻觉的评估、检测与缓解

摘要

大语言模型(LLM)在自然语言处理任务中取得了显著成果,然而,其产生的幻觉现象严重影响了生成内容的可靠性与可信度,阻碍了其在对真实性要求较高领域的广泛应用。本文析了LLM幻觉的研究现状,详细介绍了幻觉的定义、分类及评估指标,全面总结了检测与缓解幻觉的方法,并对未来研究方向进行了展望。通过对现有研究的系统梳理,为进一步深入研究LLM幻觉提供了全面的参考,有助于推动LLM技术的可靠应用与发展。

关键词

大语言模型;幻觉评估;幻觉检测;幻觉缓解

一、引言

大语言模型(LargeLanguageModelLLM),如GPT-4LLaMA等,凭借其强大的语言理解和生成能力,在智能问答、文本生成、机器翻译等自然语言处理(NaturalLanguageProcessingNLP)任务中取得了令人瞩目的成果。然而,LLM在生成文本时常常出现幻觉现象,即生成看似合理但与事实不符或无中生有的内容。例如,当询问爱因斯坦因发明电灯获得了诺贝尔物理学奖吗?,若模型回答,则产生了幻觉,因为发明电灯的是爱迪生,且爱因斯坦获诺奖是因光电效应等理论。这种幻觉问题极大地影响了LLM生成内容的可靠性和可信度,严重阻碍了其在医疗、金融、法律等对真实性和准确性要求极高领域的广泛应用。因此,深入研究LLM幻觉问题,探索有效的评估、检测与缓解方法,对于提升LLM的性能和推动其可靠应用具有至关重要的意义。

二、大语言模型幻觉概述

2.1定义

目前,学界尚未对LLM幻觉形成统一明确的定义。一般而言,LLM幻觉指模型生成的文本在语义、逻辑或事实上存在错误,与真实世界知识、输入上下文信息不一致,或在无相关依据时生成虚构内容。例如,在知识问答场景中,模型对历史事件时间、人物事迹等关键信息回答错误;在文本生成任务里,编造不存在的事实、引用虚假文献等。

2.2分类

根据不同标准,LLM幻觉可分为多种类型。按与输入信息的关系,可分为输入相关幻觉和输入无关幻觉。输入相关幻觉指模型生成内容与输入上下文存在矛盾或不合理拓展,如给定文本描述某动物是猫,模型却生成该动物有长鼻子(类似大象特征)的内容;输入无关幻觉则是模型生成内容完全脱离输入,凭空虚构,如询问苹果的营养价值,模型却开始描述一个不存在的水果的特性。按幻觉内容性质,可分为事实性幻觉和逻辑性幻觉。事实性幻觉涉及与客观事实相悖的陈述,如宣称地球是方的;逻辑性幻觉指生成内容在逻辑推理上存在缺陷,如因为今天下雨,所以太阳很大

2.3影响

LLM幻觉的存在带来诸多负面影响。在实际应用中,如医疗咨询场景,若模型给出关于疾病诊断、治疗方案的幻觉内容,可能延误患者病情,甚至危及生命;金融领域,在投资建议、风险评估时出现幻觉,可能导致投资者遭受重大经济损失。从用户体验角度,频繁遇到模型生成的幻觉内容会降低用户对LLM的信任度,阻碍其广泛应用与推广。此外,幻觉问题也给NLP研究带来挑战,影响基于LLM的相关技术发展与创新。

三、大语言模型幻觉的评估

3.1评估指标

3.1.1准确率(Accuracy

准确率用于衡量模型生成内容中与真实信息相符部分的比例。在幻觉评估中,准确回答数量占总回答数量的比例即为准确率。如对100个问题,模型正确回答80个,无幻觉产生,则准确率为80%。然而,准确率受样本分布影响大,若测试集中大部分问题简单,模型易取得高准确率,可能掩盖其在复杂问题上产生幻觉的情况。

3.1.2召回率(Recall

召回率反映模型能够正确识别并避免产生幻觉的能力。即正确回答数量占所有应正确回答数量(包括模型正确回答和因幻觉错误回答的问题中本应正确的部分)的比例。假设共有90个问题应能正确回答,模型正确回答80个,则召回率约为88.9%。召回率低可能意味着模型遗漏了许多本应正确回答的内容,产生较多幻觉,但单独使用召回率也无法全面评估幻觉情况。

3.1.3F1值(F1-score

F1值综合考虑准确率和召回率,是二者的调和平均数,能更全面反映模型在幻觉评估中的性能。F1值越高,模型在避免幻觉和生成准确内容方面表现越好。例如,某模型在特定测试集上准确率为75%,召回率为80%,经计算F1值约为77.4%

3.1.4困惑度(Perplexity

困惑度衡量模型对生成内容的不确定性。较低困惑度表示模型对生成内容更有把握,反之则可能产生幻觉或不确定性高。在语言模型中,困惑度通过计算生成文本的概率分布得到。如对于一句话,模型生成每个词的概率相乘再取倒数的n次方根(n为词数),得到困惑度值。一般来说,出现幻觉时困惑度会升高,但困惑度受多种因素影响,不能仅依据困惑度判断是否存在幻觉。

3.2评估方法

3.2.1人工评估

人工评估由专业人员对模型生成内容进行判断,确定是否存在幻觉及幻觉类型和严重程度。评估人员依据自身知识和经验,参考相关资料,对模型输出进行细致审查。如在评估医疗领域LLM时,邀请医学专家判断模型关于疾病诊断、治疗建议的回答是否正确、有无幻觉。人工评估准确性高,能深入分析幻觉原因,但主观性强,不同评估人员判断标准可能有差异,且评估大规模模型生成内容时,耗时费力,效率较低。

3.2.2自动评估

自动评估借助预先构建的评估指标和工具,利用计算机程序自动对模型生成内容进行评估。如基于上述准确率、召回率等指标编写评估脚本,通过与真实答案对比,自动计算指标值。还可使用一些专门评估语言模型生成质量的工具,如BLEUbilingualevaluationunderstudy),最初用于机器翻译评估,通过比较模型生成文本与参考文本的n-gram重叠程度评估质量,一定程度上反映是否存在幻觉。自动评估效率高、客观性强,但依赖准确的参考数据和合理的评估指标设计,对于复杂语义理解和逻辑性幻觉检测能力有限。

四、大语言模型幻觉的检测方法

4.1基于规则的检测方法

基于规则的检测方法通过制定一系列明确规则,对模型生成文本进行匹配和判断,识别其中可能的幻觉内容。例如,针对知识问答场景,可制定规则:若回答中提及的历史事件时间不在合理历史区间内,则判定可能存在幻觉;在引用文献场景,若引用的文献名称、作者、发表期刊等信息在权威数据库中无法检索到,则认为可能是虚构引用,存在幻觉。该方法简单直观,检测速度快,对于特定领域、具有明显规则特征的幻觉检测效果较好。但规则制定依赖人工经验,难以涵盖所有可能的幻觉情况,模型适应性差,当模型应用场景变化或生成文本形式复杂时,需不断更新和完善规则,否则易出现漏检或误检。

4.2基于机器学习的检测方法

4.2.1有监督学习

有监督学习方法需收集大量包含幻觉和非幻觉内容的文本数据,标注为训练样本,训练分类模型用于检测幻觉。常用分类算法如支持向量机(SupportVectorMachineSVM)、随机森林(RandomForestRF)、神经网络等。训练时,提取文本特征,如词频、词性、句法结构、语义向量等,输入分类模型进行训练。预测时,模型根据学习到的特征模式判断输入文本是否存在幻觉。例如,使用预训练词向量模型(如Word2VecGloVe)将文本转换为向量表示,再输入多层感知机(Multi-LayerPerceptronMLP)进行二分类(幻觉或非幻觉)。有监督学习检测准确率相对较高,能利用大量数据学习复杂特征模式,但依赖高质量标注数据,标注过程耗时费力,且模型泛化能力受训练数据分布影响,对于训练集中未出现的新类型幻觉检测效果不佳。

4.2.2无监督学习

无监督学习方法无需标注数据,通过挖掘文本自身的统计特征、语义结构等信息来检测幻觉。例如,使用聚类算法将模型生成文本分组,若某组文本与其他组在语义、主题等方面差异显著,且与已知真实文本特征不符,则可能存在幻觉;基于异常检测算法,如孤立森林(IsolationForest),计算文本特征向量与正常文本分布的偏离程度,偏离过大则判定为可能存在幻觉。无监督学习适用于数据量较大且难以获取标注数据的场景,能发现一些潜在的、未知类型的幻觉,但检测结果准确性相对较低,易产生误报,且对模型生成文本的特征提取和分析要求较高。

4.3基于预训练模型的检测方法

4.3.1微调预训练语言模型

利用大规模预训练语言模型(如BERTGPT等),在包含幻觉和非幻觉文本的数据集上进行微调,使其适应幻觉检测任务。微调时,模型学习到与幻觉相关的语言特征和语义模式,从而具备检测幻觉的能力。例如,使用BERT模型,在预训练基础上,对特定幻觉检测数据集进行微调,调整模型参数,使其在幻觉检测任务上性能提升。微调后的预训练语言模型在幻觉检测准确性上有较好表现,能利用预训练模型强大的语言理解能力,但微调过程需大量计算资源,且对微调数据集质量和规模要求较高,同时也面临与有监督学习类似的泛化问题,对新领域或新类型幻觉检测需重新微调。

4.3.2基于预训练模型的特征提取

利用预训练语言模型对文本进行特征提取,将提取的特征输入其他分类或检测模型进行幻觉检测。如使用GPT-2模型对文本进行编码,得到文本的语义向量表示,再将向量输入支持向量机进行分类。这种方法结合了预训练模型强大的特征提取能力和其他模型灵活的分类检测能力,可提高检测效率和准确性。但预训练模型提取的特征可能并非完全适用于幻觉检测任务,需要进一步优化特征选择和组合,且依赖预训练模型的性能,若预训练模型对特定领域或语言现象理解不足,可能影响检测效果。

五、大语言模型幻觉的缓解方法

5.1改进模型训练

5.1.1优化训练目标

传统LLM训练目标常侧重于最大化语言生成的似然性,导致模型更关注文本流畅性而非事实准确性,易产生幻觉。因此,需优化训练目标,平衡流畅性与准确性。例如,引入额外的事实一致性损失项,在训练时使模型生成内容与真实世界知识匹配度更高。可通过构建知识图谱,将模型生成文本与知识图谱中的事实进行比对,计算不一致程度作为损失项,反向传播更新模型参数,使模型在生成文本时更符合客观事实,减少幻觉产生。

5.1.2增强训练数据质量

训练数据质量对LLM性能影响重大。一方面,对训练数据进行严格筛选和清洗,去除错误、虚假信息,如在收集互联网文本数据时,通过多数据源交叉验证、人工审核等方式,确保数据真实性。另一方面,增加高质量、多样化数据,尤其是专业领域数据,扩充模型知识储备,使其在面对各类问题时能基于准确知识生成内容。例如,在训练医疗领域LLM时,收集大量权威医学文献、临床病例等数据,使模型学习到准确的医学知识,降低在医疗问题回答中产生幻觉的概率。

5.2推理阶段优化

5.2.1引入外部知识

在模型推理阶段,引入外部知识库(如WikipediaDBpedia等)或知识图谱,让模型在生成内容时检索相关知识,验证和补充生成内容。例如,当模型回答历史问题时,先从知识图谱中检索相关历史人物、事件信息,依据这些信息生成回答,避免凭空猜测产生幻觉。通过外部知识引入,可显著提高模型生成内容的准确性和可靠性,但需要高效的知识检索和融合技术,确保外部知识能与模型内部知识有效结合,同时增加了系统复杂性和计算成本。

5.2.2调整解码策略

传统解码策略(如贪心搜索、波束搜索)在生成文本时,可能因局部最优选择导致幻觉产生。可调整解码策略,如采用基于不确定性估计的解码方法,在生成每个词时,不仅考虑概率最高的词,还综合评估生成词的不确定性。对于不确定性过高的词,重新选择或进行修正。例如,使用温度参数调整词生成概率分布,温度越高,概率分布越均匀,生成结果越具多样性,但可能增加幻觉风险;温度越低,概率分布越集中,生成结果越确定,但可能导致生成文本过于保守。合理调整温度参数及结合其他策略,可在一定程度上平衡生成文本的多样性与准确性,减少幻觉。

5.3后处理方法

5.3.1事实核查

对模型生成内容进行事后事实核查,通过与权威数据源比对,验证内容真实性。如利用搜索引擎对模型生成文本中的关键信息进行搜索,检查是否与可靠信息源一致;或使用知识图谱匹配技术,验证文本中提及的实体、关系等是否符合知识图谱中的事实。若发现不一致,对生成内容进行修正或提示用户可能存在幻觉。事实核查可有效发现并纠正已生成内容中的幻觉,但对核查工具和数据源依赖大,且对于复杂语义和隐含信息的核查难度较大。

5.3.2可信度评估

为模型生成内容分配可信度分数,根据分数判断内容可靠性。可从多个维度评估可信度,如基于模型生成内容的概率分布、与输入上下文的一致性、与外部知识的匹配度等。例如,使用贝叶斯方法计算生成内容的后验概率作为可信度分数,分数越高,可信度越高。用户可根据可信度分数决定是否采用模型生成内容,或进一步审查低可信度内容。可信度评估为用户提供了参考依据,帮助用户更好地判断模型输出,但评估模型的准确性和稳定性有待进一步提高。

六、结论与展望

6.1研究结论

LLM幻觉是当前阻碍其广泛可靠应用的关键问题。本文对LLM幻觉的定义、分类、评估、检测与缓解方法进行了全面梳理。在评估方面,准确率、召回率、F1值和困惑度等指标及人工和自动评估方法各有优劣,需结合使用以全面准确评估幻觉情况。检测方法中,基于规则的方法简单直接但灵活性差,基于机器学习的有监督和无监督学习方法以及基于预训练模型的检测方法各有特点,需根据实际场景和数据情况选择。缓解方法涵盖改进模型训练、推理阶段优化和后处理等多个环节,通过优化训练目标、增强数据质量、引入外部知识、调整解码策略以及进行事实核查和可信度评估等,可在一定程度上减少幻觉产生。

6.2未来研究方向

未来,LLM幻觉研究可从以下几方面深入。一是探索更深入的幻觉生成机制,通过分析模型内部结构、神经元活动等,揭示幻觉产生的根本原因,为更有效的检测和缓解方法提供理论基础。二是开发更高效、准确的检测与缓解方法,结合新的技术,如强化学习、对抗学习等,提高检测的泛化能力和缓解效果,降低计算成本和系统复杂性。三是构建更全面、权威的幻觉评估基准数据集和评测指标体系,促进不同方法间的公平比较和性能提升。四是针对特定领域(如医疗、金融、法律)的LLM,研究领域针对性的幻觉治理方案,满足这些领域对准确性和可靠性的严格要求,推动LLM在关键领域的安全、可靠应用。



https://wap.sciencenet.cn/blog-3525898-1494737.html

上一篇:下一代容器安全架构:基于eBPF与零信任的云原生防御体系
下一篇:AI智能体本地敏捷化部署
收藏 IP: 61.155.59.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-7-25 11:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部