twhlw的个人博客分享 http://blog.sciencenet.cn/u/twhlw

博文

参数量小的大模型幻觉率比那些大参数的低吗? 精选

已有 5045 次阅读 2025-5-6 18:59 |个人分类:2025|系统分类:科研笔记

参数量小的大模型幻觉率比大参数的要低一些,该观点有一定的合理性,但并不是绝对的,需要根据具体情况进行分析。

一、参数量小的模型幻觉率相对较低的原因

1、复杂度和知识覆盖范围的差异

小参数模型通常在训练时学习到的知识相对有限。它们主要专注于训练数据中较为明显和常见的模式。例如,在一个简单的文本分类任务中,小参数模型可能只学习到了一些高频词汇和基本的语法结构与分类标签之间的关系。由于其知识范围较窄,它在生成内容时更倾向于使用这些已掌握的、相对确定的信息,从而在一定程度上减少了生成与训练数据偏差较大的幻觉内容的可能性。而大参数模型由于其庞大的参数规模,能够学习到更复杂、更广泛的知识。它可能会捕捉到一些训练数据中较为细微、边缘的模式。这些模式可能在实际应用中并不总是准确,当模型试图利用这些复杂的知识进行生成时,就更容易出现幻觉。比如在一些复杂的语言生成任务中,大模型可能会根据一些罕见的、不稳定的关联来生成内容,导致幻觉的产生。

2、过拟合与泛化能力的平衡

小参数模型在训练过程中相对不容易过拟合。因为其参数较少,模型的容量有限,它在拟合训练数据时不能像大模型那样对训练数据中的噪声和异常值进行过度拟合。这使得它在面对新的输入时,更可能基于较为通用的规律来生成内容,而不是根据训练数据中偶然的、不合理的模式来生成幻觉内容。大参数模型则更容易过拟合训练数据。它可能会记住训练数据中的许多细节,包括一些错误的、不合理的关联。在生成内容时,这些错误的关联就可能导致幻觉。如在图像生成任务中,大模型可能因为过拟合了训练集中某些图像的特定噪声模式,而在生成新图像时出现不符合真实世界的幻觉内容。

3、计算资源和优化难度的差异

小参数模型的训练和优化相对简单。在训练过程中,优化算法更容易找到合适的参数值来使模型在训练数据上达到较好的性能。这意味着模型在训练完成后,其参数配置相对稳定,生成的内容也更符合训练数据的规律,幻觉率相对较低。大参数模型由于其复杂的结构,训练和优化过程非常困难。可能会出现一些局部最优解的情况,使得模型的参数配置并不是最优的。而且在训练过程中,由于计算资源的限制,可能无法完全充分地训练模型。这可能导致模型在生成内容时出现幻觉,因为它没有很好地学习到训练数据的真实规律。

二、参数量小的模型幻觉率并不一定总是低

1、数据质量方面

如果小参数模型的训练数据质量很差,比如数据中存在大量的错误标注、噪声或者数据分布非常不均衡,那么即使模型参数较少,也可能产生幻觉。例如,在一个垃圾邮件分类任务中,如果训练数据中有很多正常邮件被错误地标注为垃圾邮件,小参数模型在学习这些错误的模式后,可能会错误地将正常邮件分类为垃圾邮件,这也可以看作是一种幻觉。

2、任务复杂度方面

对于一些非常复杂的任务,小参数模型可能由于其能力有限而无法准确完成任务,从而产生幻觉。在一些需要理解深层次语义关系的自然语言处理任务,如复杂的问答系统中,小参数模型可能无法理解问题的真正含义,生成一些看似合理但实际上与问题无关的回答,这就是幻觉的一种表现。而大参数模型在这种复杂任务中可能由于其强大的知识储备和理解能力,能够更好地避免这种幻觉。

人机环境系统智能.jpg

目前,各主要大模型的幻觉率有多少?

以下是目前一些主要大模型的幻觉率情况:

OpenAI 系列

• GPT-4o:幻觉率较低,非幻觉率接近80%。

• o1:幻觉率约为2.4%。• o3:幻觉率约为33%。

• o4-mini:幻觉率高达48%。

谷歌 Gemini 系列

• Gemini-2.0-Flash-001:幻觉率仅为0.7%,表现优异。

• Gemini-2.0-Pro-Exp:幻觉率为0.8%。

• Gemini-1.5-Pro-002:幻觉率为6.6%。

• Gemini-Pro:幻觉率为7.7%。

附录:大模型的幻觉率是如何计算的

目前,大模型的幻觉率计算方法主要有以下几种:

1、基于数据文本的评估方法

(1)精确率、召回率等统计指标:通过计算生成文本与参考文本之间信息的匹配程度来量化幻觉程度。例如,Dhingra等人提出的PARENT指标,将蕴含精确率与蕴含召回率相结合,克服了传统BLEU、ROUGE等指标与人工判断结果一致性较差的问题。

(2)仅使用源文本作为参考:这种方法在评估时不需要目标文本,更适应输出结果有多种可能性的场景。例如,Wang等人提出的PARENT-T指标,在PARENT指标基础上进行了优化,省略了关于目标文本的比较计算。

2、基于模型的评估方法

(1)信息提取模型:利用信息提取模型将生成文本和参考文本中的知识以某种方式表示出来,并进行比较验证。例如,Goodrich等人比较了两类信息提取方法:一类是两步提取法,另一类是基于Transformer架构的端到端直接提取事实元组的方法。

(2)特定模型的评估方法:通过使用两个在不同数据集上训练的模型来判断生成文本中每一个词例是否得到参考文本的支持。例如,Filippova利用条件语言模型和无条件语言模型计算单一词例的损失关系,判断该词例是否出现幻觉。

3、基于多任务应用的评估方法

(1)自监督模型:Deng等人通过引入信息对齐概念,训练自监督模型在词例维度上对幻觉进行度量,该方法在多种任务中表现出与人类判断相当的性能。

(2)多维评估器:Zhong等人提出的多维评估器UniEval,将不同维度的评估转换为布尔问答问题,在文本摘要和对话响应任务中表现更佳。

4、具体案例

(1)Vectara评测:Vectara公司通过让AI模型对831篇短文进行摘要来测试其产生幻觉的概率。所有模型都使用温度参数为0,确保输出的稳定性,并设置了答案率和平均摘要长度等指标。

(2)非幻觉率评估:非幻觉率指的是AI生成的回答中不包含幻觉的比例。评估标准包括回答是否为流畅的自然语言、是否直接回答问题、是否与正确答案一致以及是否可被正确答案支持或暗示。



https://wap.sciencenet.cn/blog-40841-1484689.html

上一篇:哲学的三次转向及其对智能的影响
下一篇:人机环境系统智能中的“计算+算计”与“态势感知+势态知感”
收藏 IP: 124.64.126.*| 热度|

2 宁利中 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-5-24 08:19

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部