DIKWP评测体系优化技术报告
段玉聪
人工智能DIKWP测评国际标准委员会-主任
世界人工意识大会-主席
世界人工意识协会-理事长
(联系邮箱:duanyucong@hotmail.com)
引言:提升LLM评测体系的必要性
随着大语言模型(LLM)的迅猛发展,现有评测基准往往难以全面衡量模型的高级认知能力
。DIKWP评测体系是业界首创的一种认知评估框架,通过数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)到意图(Purpose/意图)五个层面,全方位解析模型的认知与决策过程
。“DIKWP”体系突破了传统仅侧重语义理解和推理的评测模式,在识商(类似于模型的“意识水平”)方面提供了一个多层次评估视角。然而,面对新一代LLM的复杂能力和多模态趋势,我们需要对DIKWP体系进行优化升级,以提高评测指标的丰富性、评分的客观自动化程度、对多模态AI的适用性、与现有权威基准的一致性,以及结果报告的可解释性和洞察力。
本报告将结合行业最佳实践、最新研究成果和公开测评数据,从以下五个方面提出DIKWP评测体系的优化方案,并通过案例分析和元分析提供数据支撑:
扩展测评指标:增加情感理解、因果推理等高级能力的评估指标,强化对LLM高阶认知能力的测评覆盖。
自动化评分方法:探索利用自动化技术(如LLM判别器)降低人为主观因素,引入更客观、一致的评分机制。
适用于多模态AI:改进DIKWP使其可评估文本、图像、音频等多模态模型能力,满足日益增长的多模态大模型评测需求。
与现有基准结合:将DIKWP与已有权威基准(如MMLU、GSM8K、BIG-Bench、TruthfulQA等)对接或对标,提高测评结果的可信度和可比较性。
增强可解释性:优化评分报告结构,提供更直观清晰的结果展示和错误分析,提升评测结论的透明度和指导意义。
接下来将针对每一方面详细展开优化方案,并给出相应案例和数据支持。
扩展测评指标:评估情感认知与因果推理等高级能力
1. 引入情感理解评估:现有DIKWP侧重于从数据到智慧、意图的认知链路,但尚未专门评估模型对人类情感和心理的理解能力。最新研究表明,先进LLM在一定条件下已初步具备类似人类的情感认知推理能力。例如,斯坦福大学提出了一个测试基础模型情感认知的评估框架,基于心理学理论生成了1280个不同情境来考察评价(appraisal)、情绪(emotion)、表达和结果之间的因果关系
。他们让GPT-4、Claude-3、Gemini等模型以及人类受试者在这些情境下进行判断,结果发现大型模型的推断往往与人类直觉一致,在某些方面甚至超过了人类一致性;所有模型在采用链式思维(Chain-of-Thought)推理时表现显著提升
。这表明当前LLM已经在一定程度上形成了对情绪及其对信念和行为影响的类人理解。鉴于此,我们建议在DIKWP中新增“情感理解”指标,例如设计情境题让模型推断角色的情绪状态、态度或潜在心理意图,并评估其与人类判断的一致性。通过这样的测评,可以考察模型在数据/信息层面对情感线索的识别(例如识别出语句中的情感信号)、在知识层面对情绪与情境因果的理解(如根据事件推断情绪或反过来推断事件),以及在更高层次智慧/意图层面对情感的应用(如共情对话、情感推理决策)的能力。
2. 引入因果推理评估:因果推理被视为人类智能的核心特征之一,是机器从相关性智能走向因果性智能的关键能力
。为了评估LLM的因果推理水平,上海AI实验室等联合提出了首个大模型因果推理评测体系CaLM(Causal Evaluation of Language Models)和相应数据集
。CaLM框架包含因果评估目标、评估方式、评估标准和错误分析四个部分,并发布了一个涵盖12万道中英双语因果推理题目的数据集。基于CaLM的测试,对28个主流大模型进行了因果推理能力评估,产生了丰富的实证结论。借鉴这一成果,我们将在DIKWP中加强对因果推理的考察。例如,增加以下类型的问题:
直接因果推断:给出一个事件背景,询问模型可能的原因或结果,评测其因果关联识别能力。
反事实推理:提供一个假设情景或对现实的改变,要求模型推理事件走向变化(如“If X没有发生,Y会如何?”)。
因果链解释:让模型解释一系列事件之间的因果链条,从数据层逐步上升到知识、智慧层面对因果关系的理解。
这些问题的设计应参考CaLM和相关数据集,如CLEAR因果图理解基准
,确保涵盖多样的因果推理类型。通过新增因果推理指标,可以评估模型在DIKWP框架中从知识到智慧层面对复杂因果关系的掌握程度。例如,当模型面对因果型问题时,其回答是否基于真实因果推理(智慧层面的推理能力),还是仅仅利用相关性或表面模式匹配
。评测结果将为我们判断模型是否正在“攀登因果之梯”提供量化依据。
3. 其他高级能力指标:除了情感和因果,两项突出的高级认知能力,我们也考虑扩展DIKWP评测的广度,囊括其他关键能力指标。例如:
复杂规划与决策:评估模型在给定目标下规划步骤、权衡利弊(属于智慧与意图层面的能力)。
理论推理与心智模型(Theory of Mind):测试模型理解他人知识状态和意图的能力,可视为意图层面的延伸。
创意生成与开放式问题解决:考察模型在开放场景下生成新颖想法、非直线路径解决问题的能力,属于智慧层面高阶能力。这些指标的引入应依据最新研究进展和公开测评数据设计相应题目。例如BIG-Bench中包含许多创意和逻辑题,可以作为参考
。通过丰富测评指标,我们期望DIKWP体系能够全面覆盖LLM从低级感知理解到高级推理决策的能力光谱,避免遗漏关键的智能维度。在实际应用中,若某模型在这些新增指标上表现薄弱,这将提示研发者模型在高级认知能力上仍有提升空间,从而具有指导意义。
自动化评分方法:减少主观评审,提高客观一致性
1. 传统人工评审的局限:目前LLM评测中大量依赖人工来对模型回答进行评分,但人工评审存在成本高、速度慢且一致性欠佳的问题
。不同评审者的标准不一,容易引入主观偏差。特别是对于复杂开放式问题,人工需要依据模糊的准则判断模型输出质量,难免出现评价不稳定的情况
。因此,引入自动化评分方法势在必行。自动化评分不仅提高效率,更重要的是能在相同标准下重复评估,从而保证对比的公平和结果的一致性。
2. 引入LLM作为评估助手(对模型输出进行打分):近期业界一个重要趋势是利用强大的LLM本身来充当“评委”,即所谓LLM-as-a-judge的自动评估
。例如,研究者已经尝试让GPT-4这类模型根据一套预先定义的标准去评分模型输出(如Flan系列论文,AlpacaEval等)
。然而,直接使用LLM评分也存在挑战:模型评委可能偏向于自己生成的回答,或对响应长度、顺序等产生偏好,即出现“认知偏差”。为此,我们需要精心设计提示(prompt)来约束LLM评委的行为。最佳实践包括:
明确给出任务描述和评分标准:在提示中清晰描述评分维度(如相关性、准确性、逻辑性等)以及分值定义。例如:“请从0到5评分答案的逻辑严谨性,其中0表示毫无逻辑,5表示逻辑完美无缺。”
增加思考链:引导评估LLM先进行系统的分析再给出评分,例如提示它在最终给分前写一个“评估理由”字段,以模拟人类评委的思考过程
。这类似于Chain-of-Thought,让评委模型自身推理评分依据,减少随意性。
使用较小的评分刻度:如将评分限定为1-5等离散等级,避免大范围浮点分数带来的不稳定
。
提供参考答案或要点:如果每道测试题有人类参考答案或关键点,可在提示中提供给评委模型
。有研究指出,这将显著提升LLM评判一致性,因为模型可以对比输出与参考要点是否一致
。少量示例:在提示中加入少数示例问题及其高分和低分答案示例,指导模型学习评分标准
。例如给出一个示范:“问题X,参考答案要点A/B/C。模型回答Y。分析:...。结论:得分3/5。” 以此校准LLM评委。
在DIKWP优化中,我们可以为每个评估维度设计专门的LLM评分提示模版。例如,对“情感理解”题目的评分提示可包括:“任务:评估模型对文本中隐含情绪的理解程度。标准:5-完全正确捕捉情绪,3-部分理解情绪但有偏差,1-严重误解情绪或无关。”然后提供情境和模型回答,令LLM给出分析和评分。通过这种方式,让强大的评估模型(如GPT-4)对被测模型的输出进行客观打分。值得注意的是,为降低偏倚,评委LLM最好与被测模型不同来源(如用GPT-4评估开源模型输出),或采用多人(多模型、多提示)评估取平均,以减少单一模型评委的系统性偏误。
3. 专用评分模型与奖励模型:除了即时使用预训练LLM打分,业界也开始训练专用的自动评分模型。例如,Google提出的FLAMe系列模型(Foundational Autoraters)就是通过汇集多种任务的人类评价数据训练出的通用评分器,在多个自动评估基准上超越以往的LLM评估方法
。FLAMe收集了102个不同任务、共530条人工评估数据,涵盖成对比较、逐项评分、分类和开放式问答四类评估形式,并覆盖了从一般回答质量、事实准确性到数学推理、代码正确性、安全性、指令遵循等多个能力维度。经过统一格式训练后,FLAMe模型在12个自动评估基准中的8个上性能最佳。这一成果表明,通过监督微调得到的专用评估模型可以更好地学习人类的打分准则,减轻大模型评委的偏差。
在DIKWP优化中,我们也可以考虑训练或采用类似的评分模型。例如利用公开的评价数据(如MT-Bench、Vicuna-Bench等人类比较数据)针对DIKWP的评估维度微调一个中型模型作为评分助手。或者使用已有的强奖励模型(如OpenAI/Anthropic在RLHF中训练的奖励模型)来对答案打分。这些专用模型能提高客观一致性:因为它们直接以人类评分为训练目标,避免了通用LLM评委可能存在的风格偏差。此外,奖励模型能对输出进行逐对比较(胜选哪个更好)或打分,可用于细粒度判别。在具体实现时,可以先用LLM评委初筛,再用专用评分模型复核关键题目的得分,以结合两者优点。
4. 规则程序和答案比对:对于部分客观题或封闭题,可以采用程序化评分的方法,进一步降低主观因素。例如DIKWP中属于“数据→信息”层面的题目(如提取给定文本中的特定信息)可以预先存有标准答案,用字符串匹配或正则自动判断正确与否。对开放式回答,也可采用嵌入相似度或关键词覆盖率等自动指标,与标准答案进行比对
。传统NLP指标如BLEU、ROUGE在评价生成文本时也有参考价值,但需要慎用,因为LLM可能用不同措辞表达同样意思
。因此在DIKWP中,可针对不同题型采取不同自动评分策略:
选择题或判断题:直接比对答案正确性(准确率统计)。
填空题:计算答案与标准答案的词重叠或语义相似度,达到阈值则判对。
开放问答:引入双重模型评估(被测模型回答->评委模型判分)结合参考答案的混合方法,确保既考虑标准答案又保留灵活表达。
通过以上多层次的自动化评分设计,DIKWP体系在评分阶段将大幅减少人工干预,实现高效客观的评价流程。一方面,自动评分使得大规模评测成为可能(可以在短时间内评估数以千计的问题和多模型对比);另一方面,不同模型的得分可保证在统一标尺下衡量,从而更准确地反映模型能力差异。
案例:以一道因果推理评测题为例,问题:“小明早上没带伞出门,结果淋了雨。请问造成小明淋雨的最主要原因是什么?” 假设模型A回答:“因为他没有带伞而遇到下雨”,模型B回答:“因为他运气不好”。在人类评价中,A的回答显然比B更正确。通过设计LLM评委提示:“任务:评估回答是否正确指出了淋雨的原因。5=准确指出‘没带伞’是主因,1=没有指出主要原因或答非所问。” 我们让GPT-4评委分别打分。GPT-4根据提示会给A打5分,B打1分,并给出理由,如:“A回答提及‘没带伞’,符合主要原因;B回答笼统,未提实际原因。” 这样自动得到的评分与人类判断一致,且给出了可解释的理由。整个过程无需人工介入,实现了高效客观的比较。
扩展多模态评测:适用于文本、图像、音频等AI模型
随着多模态大模型(例如OpenAI GPT-4V,Google Gemini等)的出现,评测体系也必须拓展至图像、音频、视频等模态。DIKWP的理念(数据→信息→知识→智慧→意图)可以通用于不同类型的数据处理和认知,因此有良好的扩展基础。本节将讨论如何优化DIKWP以评估多模态AI的能力。
1. 多模态任务设计:我们需要针对不同模态设计对应的测试任务,同时仍然贴合DIKWP各层级转化的考察。例如:
图像模态:在“数据→信息”层面,可以出示一张图片(数据)让模型描述其中的内容(提取信息),类似于视觉问答(VQA)或图像描述任务。在“信息→知识”层面,可以让模型根据图像内容回答常识性或推理性问题,例如“一张人物面部照片,让模型推测此人可能的情绪或身份背景”,看模型能否由视觉信息推导出知识/常识。在“知识→智慧/意图”层面,可以设计涉及图像的复杂决策问题,例如给出交通场景图,让模型提出避免危险的驾驶决策(智慧应用),或者让模型解析一幅漫画或艺术作品背后的意图含义(意图识别)。
音频模态:在“数据→信息”层面,让模型将一段语音音频(数据)转写为文本(信息),测试语音识别能力。在“信息→知识”层,可要求模型根据音频内容回答理解性问题(类似听力理解),例如一段对话音频,问对话双方的关系或情绪。更高层次,可以给出音乐音频让模型推断情感意图,或给出口语指令音频让模型执行复杂任务,评估从声音理解到决策执行的链条。
多模态融合:有些任务可以综合多模态信息,比如给出一张图表并附有说明音频,让模型整合视觉和听觉信息回答问题。这种数据->信息的跨模态整合正是高级AI模型能力的体现。DIKWP框架下,我们可以考察模型能否将图像和文字信息融合形成知识,并做出智慧判断。
2. 借鉴多模态评测基准:当前已经有一些专门针对多模态大模型的评测基准,可为DIKWP扩展提供借鉴和数据来源。例如:
MME基准(Multimodal Evaluation):这是一个综合评估多模态大模型感知和认知能力的基准,包含14个子任务,覆盖从对象识别、常识推理、数值计算、文本翻译到代码推理等多个方面
。MME的指令设计非常简洁,让模型输出是/否等简单格式以便量化评估
。这一思路提示我们,在多模态任务中,有时可将问题设计为判断题或选择题(例如“图中有一只猫吗?是/否”),这样方便自动判分。MMT-Bench基准(Multimodal Multitask Benchmark):由上海AI Lab等提出,包含32K道多选的视觉语言问题,涵盖32个核心元任务和162个子任务,是此前MMBench数据集规模的8倍
。MMT-Bench涵盖13种不同类型的图像(自然、合成、医学、文本场景等)以及多种多模态情景(驾驶、GUI操作、具身AI等),评测了14种多模态能力,包括视觉识别、定位、推理、OCR、计数、3D感知、时间理解等
。在这一基准上,研究者对多种视觉大模型进行评估,发现感知错误和推理错误是所有模型最常见的两类错误。这说明当前多模态模型在基础感知和高层推理上都有明显短板。对于DIKWP,我们可以从MMT-Bench引入一些代表性子任务,例如:视觉常识问答、跨图推理(多张图片的对比推理)等,用于评测模型在“信息→知识→智慧”层面的跨模态推理能力。同时,借鉴其错误分类,在报告中标注模型是在感知环节出错(如识别错误)还是在推理环节出错。CMMU基准(Chinese Multimodal Understanding):智源研究院发布的一个中文多模态评测集合,v0.1版本包含3603道多模态理解题目,GPT-4V在该基准的答题准确率仅约30%
。这凸显了多模态任务的挑战性。我们可以考虑将CMMU中的公开验证集部分融入DIKWP,特别是中文场景下的多模态理解,如给出带有文字的图片、漫画场景等,让模型回答以测试其跨模态理解和中文语义融合能力。
3. 自动评分与多模态对齐:多模态评测还需要考虑评分标准的一致性。例如图像和文本的回答如何比较?为此,可以将多模态问题也尽量转化为文本形式的答案进行评估。比如图像提问的回答可以是文字描述,然后由LLM评委或程序对比正确描述来评分。在OCR、听写等任务上,有明确的文本比对标准(字符错误率等)。对于开放性的图像理解题,仍可采用LLM评委,提示中加入对图像内容的文字描述或参考答案,确保评委模型“看”到图像关键信息
。在多模态智慧/意图题(如决策建议)上,评委模型需要根据问题背景(可用文字描述提供)评估答案的合理性和创意。这要求我们在提示设计上,将多模态输入适当编码成文本描述传递给评估模型。例如在提示里写:“图像描述:一张照片,内容是……。模型回答:……。参考答案要点:……。请评分。” 如此一来,评委模型能依据文字描述的图像信息进行判断,实现不同模态间的一致评价。
4. 模型适配性:DIKWP扩展至多模态评测,也需要被测模型本身支持多模态输入输出。因此,我们应针对不同模型能力设置不同子任务。例如纯文本LLM不参加图像题评测;相反,具备视觉模块的模型需要完整参与。最终报告中,可以分别给出各模型在各模态下DIKWP五个维度的得分。这样做的好处是能够直接比较例如:“模型X在文本Wisdom上表现优异,但在视觉Wisdom上明显不足”,从而定位模型能力短板,指导相应模块的改进。
案例:假设我们评测两个多模态模型:Model-V (仅有视觉能力) 和 Model-AV (视听语音全能模型)。我们设计一道多模态智慧层面的题目:展示一张交通十字路口监控截图,并播放一段描述该路口当前状况的音频,然后问模型:“基于图像和音频信息,当前交通状况是否安全?需要采取什么措施?” Model-V由于没有音频能力,只能基于图像给出回答,可能漏掉音频中提到的“信号灯故障”信息,导致判断失误。Model-AV结合图像中拥堵情况和音频里信号灯故障的描述,回答:“不安全,应立即指挥交通并修复红绿灯。” 在DIKWP评测中,Model-AV在此智慧应用题上得高分,而Model-V因缺少音频信息导致错误决策,得分较低。这一案例体现了多模态信息融合在智慧决策中的重要性,DIKWP的多模态评测能够将不同模态能力的差异量化呈现,为研发者指出提升方向。
融合现有基准:与权威测评结合提升可信度
为了确保DIKWP评测结果具有业界认可的可信度,我们应将其与已有广泛使用的基准进行对标或融合。通过参考这些基准的数据和指标体系,不仅可以丰富DIKWP的测题覆盖面,还能使评测结果具有可比性,方便横向比较不同模型在各大基准的表现。以下,我们讨论与MMLU、GSM8K、BIG-Bench、TruthfulQA等基准结合的方案:
1. 融合MMLU测评:知识广度与专业能力MMLU(Massive Multitask Language Understanding)是目前LLM评测中事实知识和学科理解的权威基准,涵盖57个学科、共14,000道多项选择题,涉及STEM、人文社科等广泛领域
。MMLU以其广覆盖和高质量成为大模型通用智力评测的事实标准。然而,随着GPT-4等模型的出现,MMLU上的性能已接近饱和——GPT-4在2023年3月就取得了86.4%的准确率,此后新模型鲜有超越,大多也停留在86-87%上下。这导致MMLU难以区分最顶尖模型的差异。为解决这一问题,研究者提出了MMLU-Pro,对题目进行了更高难度改造(增加干扰选项至10个、强调推理而非记忆),使得GPT-4的成绩也下降了约16-33%,重新拉开差距。
鉴于MMLU的重要性,我们建议在DIKWP的“知识”与“智慧”层面融合MMLU题目或类似风格的问题。一种做法是直接选取MMLU中具有代表性的题目(涵盖不同领域),纳入DIKWP测试集,以测试模型的多领域知识获取能力。例如可以在知识层面增加几道多项选择的学术题,让模型选择正确答案。另一种做法是在DIKWP框架下分类呈现MMLU结果:比如把模型在MMLU上的总体得分作为其“知识广度”评分的一部分。报告中可注明:“模型在MMLU基准上的准确率为X%,相当于DIKWP知识维度评分的XX分”。这样,读者能直接将DIKWP结果与已有公开数据联系起来。
通过融合MMLU,我们能保证DIKWP评测的知识覆盖足够广泛且与社区标准接轨。如GPT-4在MMLU达到86%,GPT-3.5约70%
,PaLM等约71%
,在DIKWP报告中,这些数据可以支撑我们对模型知识层次的评估和比较。例如,若DIKWP测评中某国产模型的知识维度得分对应的MMLU表现仅50%,则一目了然地低于GPT-3.5的水平。这种关联能够增强评测结果的信服力和可解释性。
2. 融合GSM8K测评:数学与逻辑推理能力GSM8K是OpenAI发布的算术推理基准,包含8.5K道中小学数学文字题,重在考察模型的多步数学推算和逻辑推理能力
。此类问题要求模型从自然语言的问题中提取数量关系,进行2到8步的推导运算。它被认为非常具有挑战性,因为需要精细的逻辑和算术正确性。最新模型在GSM8K上取得了显著进展:例如GPT-4通过少样本链式思维(5-shot CoT)可达约92%准确率,而GPT-3.5仅约57%。Anthropic的Claude 2为88%,Claude 3达到95%(zero-shot)等。可以看到顶尖模型几乎已接近满分,而中等模型差距明显,使GSM8K成为区分中高档模型能力的利器。
在DIKWP中,我们计划将定量推理纳入评测范围,可作为介于“知识”和“智慧”之间的专项考察。一方面,可直接从GSM8K挑选若干具有代表性的数学题,让模型自行给出最终答案(或要求给出推理过程)。然后通过自动检查答案正确与否来评分。这相当于将GSM8K子集成绩融合进DIKWP的“推理能力”指标。另一方面,我们可以将数学题的解题过程评为智慧层面的体现——模型是否能应用知识和逻辑来分步求解问题,可用链式思维输出的正确性来评估。例如设计一题:“小红有3个苹果,又买了5个,平均分给2个朋友,每人分到多少?” 模型需要输出解析过程和答案3+5=8, 8/2=4,每人4个。我们检查其步骤有无谬误。这类题可以自动化评分:有标准算式可比对,或用一个解析器验证模型的结果。如果模型能可靠解决这些问题,说明其知识转化为智慧(解决实际问题)的能力较强。反之,如果模型在此类题频繁出错,可能意味着其逻辑严谨性或基础算术能力不足。
借助GSM8K,我们能够补足DIKWP在严谨推理方面的评测。很多通用LLM在对话生成上表现良好,但在数学推理上暴露弱点。因此,在报告中呈现模型在GSM8K子集上的准确率,可以直观体现模型逻辑推算能力短板。例如:“模型X在DIKWP逻辑推理测试(GSM8K子集)中仅取得40%的正确率,远低于GPT-4的92%
”,这将引起足够重视,促使改进模型推理模块。
3. 融合BIG-Bench测评:创意、常识和极端情况BIG-Bench是谷歌等发起的大型基准,收录了204个不同任务,涵盖从常识问答、逻辑谜题到诡异的单词游戏、拟人对话等各类开放任务,被用于评估模型在许多非传统场景下的表现
。BIG-Bench提供了一个检验模型“怪题”能力的平台,例如一些反直觉问题、需要发散思维的问题等。这与DIKWP中“智慧”层面的开放创新能力评测契合。我们可以挑选BIG-Bench中若干具有区分度的任务纳入DIKWP。例如:
抽象理论任务:如BIG-Bench的“概念归纳”或“数学防欺诈”题,考查模型处理抽象概念的能力。
创意生成任务:如让模型编故事、写诗歌等,评估其创造力(这部分可由LLM评委按创造性评分)。
安全/偏见测试:BIG-Bench里也有道德判断、偏见测试题,可用于DIKWP的意图层面,检测模型在价值观和意图理解上的表现。
通过这些任务的引入,我们可以观察模型在非常规任务上的行为是否稳健。特别是很多模型在训练中偏重常见任务,对偏门问题容易出错或产生幻觉。DIKWP若包含一部分BIG-Bench任务,其评测结果将更具挑战性和前瞻性。例如,可报告模型在BIG-Bench若干任务上的平均胜率或评分,对比人类水平或其他模型。这能够显示模型在未知领域的泛化能力。我们期待顶尖模型在这类评测中能逐步接近人类表现,但目前很多模型尚有差距,这部分结果有利于学术和工业界了解模型的极限和未来改进方向。
4. 融合TruthfulQA测评:真实性与幻觉检测TruthfulQA是一个专门测量模型在回答开放问题时是否真实诚实的基准,包含817道涉及健康、法律、金融、政治等38类常见知识误区的问题
。这些问题精心设计成一些人类常有误解的陷阱,模型如果仅靠语言关联很容易给出错误但看似合理的回答
。TruthfulQA旨在考察模型是否会传播谬误或幻觉。早期GPT-3在TruthfulQA上非常糟糕(只有约21%的答案真实);经过RLHF训练的GPT-3.5稍有改善;GPT-4进一步提升但仍仅达到59%的真确率。这意味着即使最强模型也经常陷入错误的自信回答中,需要继续改进。Anthropic的Claude模型据报道在TruthfulQA上也在60-70%左右,尚未达到可靠水平。
将TruthfulQA纳入DIKWP,可增强对模型真实性(Truthfulness)和幻觉倾向的评估。在DIKWP框架中,这类题目可归入“知识→智慧”或“智慧→意图”层面:因为回答真实与否,既反映模型知识储备的正确性,也体现模型是否在遵循事实真相这一意图上可靠。我们可以选取TruthfulQA中的部分问题,让模型自由作答,再对照标准答案评判其是否真实。如果有条件,也可以像原基准一样,让多位人类评委判定答案真伪来计算模型的真确率。在报告中,这一指标非常重要,因为它直接关系模型输出的可信度和安全性。例如,可以报告:“模型X在TruthfulQA测试中的真确率为45%,明显低于GPT-4的59%
。主要错误集中在医疗和历史领域,反映其训练数据存在相应误导信息。” 这样的分析可以指导开发者定向提升模型的事实校验和拒答策略,以减少幻觉输出。
需要注意的是,TruthfulQA的评分标准相对主观——需要判断输出是否真实、不误导。因此,可采用LLM评委+参考事实的结合来自动评分。例如利用一套知识库或搜索引擎验证模型答复,再由LLM根据验证结果判定“真实/不真实”。尽管完全自动判断真伪具有挑战,但借助现有问答验证技术可以部分实现。将这一流程融入DIKWP自动评分,使我们在大量题目下评估模型真实性成为可能。
5. 统一与对比:将上述多项基准结合进DIKWP后,我们需要在结果汇总上做好统一标度和对比分析。统一标度指的是将不同来源的分数转换为DIKWP体系下可比的分值。例如MMLU准确率86%可折算为“知识维度8.6/10”等等。而对比分析则是拿DIKWP评测结果与公开基准已报道的主流模型结果进行比较。如我们在报告中可以列出:“GPT-4在本评测中DIKWP总分为XX,对应MMLU=86%
, GSM8K=92%
, TruthfulQA=59%;而某国产模型总分YY,对应MMLU=60%, GSM8K=40%, TruthfulQA=45%,可见与最先进模型仍有明显差距。” 通过这样的对比,一方面验证了DIKWP评分和已有评价的一致性(如果发现某模型DIKWP高分但外部基准低分,就要检查是否评分体系有偏差),另一方面也使得报告具有横向比较价值,方便读者快速定位模型的大致水准。
总之,与现有基准的结合让DIKWP从一个相对新的评测体系,融入到了社区广泛讨论的评测矩阵之中。采用这一策略,可以极大提升DIKWP评测的公信力和说服力,使其评测结论为业界所认可。
增强评测结果的可解释性:报告结构与元分析
评测的目的不仅是给模型排行打分,更要产生对模型能力的深入洞见。这就要求我们的评测报告具有高度的可解释性。可解释性体现在两个层面:微观上,每道题或每个指标的评分有理有据、易于理解;宏观上,汇总结果能够清晰地展示模型的长短板,并提供基于数据的分析结论。本节将介绍如何优化DIKWP评测报告的结构和分析方法,以增强可解释性。
1. 分维度的评分报告:DIKWP本身按数据、信息、知识、智慧、意图五个层次划分评测内容,因此报告中应充分体现各层次的结果。例如,可以采用分项评分表的形式:列出每个维度下模型的得分(可能还细分子指标)以及对应评价。一个示意表:
数据维度(感知与预处理):模型得分 X/100 – 模型在基础感知和信息提取题目的表现。例如图像描述准确率95%,语音转写准确率90%。总体来说模型对直接数据的处理非常可靠。
信息维度(理解与表征):模型得分 Y/100 – 模型对给定信息(文本/图像)的直接理解,例如阅读理解正确率、基本问答正确率。若得分低则说明模型在语义理解上有困难点。
知识维度(知识运用与推理):模型得分 Z/100 – 涵盖MMLU知识问答、常识推理等。这里可以写模型知识面的强弱,比如“在科学和历史领域表现好,法律金融领域薄弱,表明训练数据专业覆盖不平衡”。引用相应数据佐证。
智慧维度(综合推理与问题解决):模型得分 W/100 – 涵盖数学推理(GSM8K)、复杂规划、因果推理(CaLM题)等结果。解释模型在多步推理、复杂决策上的能力。例如指出模型逻辑严谨但有时计算错误(如果GSM8K得分低)。
意图维度(目标导向与价值对齐):模型得分 V/100 – 涵盖情感理解、意图识别、TruthfulQA、价值观 alignment等结果。解释模型是否能够理解隐含意图、是否符合人类期望。例如如果TruthfulQA分数低,在此指出模型有散布谣误的倾向,需要改进真实度。
上述每项后面的文字说明,既可以包括对各维度内部子能力的总结,也可以列出典型案例帮助理解。例如:“在智慧维度的一道案例中,我们询问模型如何规划一次复杂行程。模型A给出了详尽可行的方案(得分5/5),模型B方案遗漏关键步骤(得分2/5)。这表明模型A在规划能力上明显更胜一筹。” 通过案例解说,读者可以具体地理解分数背后的含义。
2. 错误分析与类别归因:仅有分数不足以解释模型问题,我们需要对模型错误进行分类分析,指出模型的薄弱环节。在每个维度,挑选出模型错误最多的题型或主题,加以归类说明。例如:“在知识维度,模型对法律类问题的错误率高达40%,主要因为经常混淆法律概念或提供过时信息。这可能源于训练数据法律知识不足或停留在旧法规
。” 又如:“在智慧维度的数学题中,模型常见错误类型是粗心计算(约占错误的50%)和理解错误题意(约占30%),前者可尝试通过链式思维提示缓解,后者需要改进模型对长问题的解析能力。” 这样的分析可借助自动错误分类:例如对模型的错误解答,让另一个分析脚本或模型判断属于哪类错误原因(知识不足、推理不当、语义误解、格式错误等)。正如MMT-Bench报告中所做的,将视觉模型的错误分为感知错误和推理错误两大类
,我们也可在DIKWP报告中给出类似的饼图或表格(文本描述即可)说明各错误类别占比。这样的可视(或描述)元素能够让读者一眼看出模型最需要改进的方面。
此外,还可以结合CaLM等框架强调错误分析流程。CaLM提出在评估中明确“错误分析(Error Analysis)”步骤
。借鉴此思想,我们可在每个维度评估完成后立即附上错误原因分析。例如对于意图维度,如果模型在TruthfulQA上给出了错误答案,我们可以附上简短分析:“模型回答不真实,可能是受训练语料误导,未能辨别流行谬误(例如关于疫苗的错误说法)。” 这些解释可以由LLM评委在评分时顺带生成,也可以离线根据标准答案自动比对后生成。例如对TruthfulQA,每道题都有标准答案和常见错误,模型若答错,可以输出对应的标准解释。这使得报告的每个分数都有解释支撑,避免读者干猜模型为何失分。
3. 预测性元分析:元分析指对多个评测指标和多个模型的结果进行整体分析,以发现更高层次的规律和预测未来趋势。在DIKWP报告结尾,我们可以提供对不同模型横向比较和指标相关性的元分析。例如,构建一个矩阵:行是模型(GPT-4、Claude、ChatGPT、某国产模型等),列是DIKWP各维度得分及关键基准成绩(MMLU、GSM8K、TruthfulQA等)。通过这样的表格,我们可以观察:哪些模型综合实力强,哪些在特定维度特别突出或薄弱。此外,计算不同指标之间的相关性,例如分析“智慧维度得分”和“GSM8K分数”的相关性是否很高。如果发现高度相关,说明数学推理几乎决定了智慧维度的分数,这可能提示我们智慧维度的测题需要更多元(以免过度由数学决定)。又比如看“意图维度得分”和“TruthfulQA真确率”的关系,或与“有毒内容检测评分”的关系,去了解模型价值对齐与真实度、安全性是否相关联。这样的元分析能帮助我们验证评测指标的有效性(如果某些关键能力应该相关但我们的测评结果不相关,可能评测不充分),也能预测模型改进方向:例如如果发现提升知识维度(如喂入更多知识)对智慧维度提升有限,但提升推理算法对智慧维度提升显著,那么应优先改进推理算法。
另外,还可以做趋势预测:基于当前多模型的成绩,我们可以推断未来模型在各项上的天花板。例如,看到MMLU已经接近人类专家水平(约90%)
且GPT-4已达86%,我们预测下代模型很快会满分甚至需要更新基准
。相应地,我们对DIKWP也要动态更新测评内容,始终涵盖尚未被“学会”的挑战任务,保持对模型发展的前瞻性。通过元分析,我们或许会提出:“目前LLM在知识问答和数学推理上已逼近专家水准,但在因果推理和意图理解上仍远不及人类平均。由此预测未来的模型改进将主要集中在后两者,例如更多融入因果推理训练或引入情感常识。” 这种分析基于数据(各维度模型得分对比人类水平),具有说服力和指导意义。
4. 报告呈现优化:为增强直观性,我们可以对报告格式做一些改进。虽然由于文本输出限制,我们无法嵌入真正的图表,但可以用文字和列表模拟出层次清晰的结构。例如关键结论用列表列出:“模型主要优劣总结:1)知识广博(MMLU 85%),但专业精度稍弱。2)逻辑推理优秀(数学题90%正确),仅在长算式上偶有疏漏。3)情感理解接近人类水平,在情绪推断测试中与人类一致性达到80%。4)事实可信度中等(TruthfulQA 60%,仍会产生幻觉)。5)策略规划与意图识别较弱,在复杂博弈题上失败率高达50%。” 这样的总结浓缩了评测发现,读者可以快速了解模型哪些方面强,哪些方面弱。随后再配以各维度的详细分数和案例分析章节做支撑。从整体到局部的逻辑清晰,提升报告的可读性。
另外,可以引入对比分析段落:比如将本模型与上代模型或竞品模型在各指标并列比较,用词突出差异。“与上代模型相比,新模型在智慧维度提升了20分,主要来自数学和编程题的长足进步
;但在意图维度仅提高5分,表明对话风格和真实性还有待加强
。” 这些对比引用的数据能让改进幅度量化呈现,解释模型升级带来的效果。
5. 案例剖析:在报告中穿插详细的案例剖析也是提高解释性的有效方式。可以选取1-2道具有代表性的测试题,展示不同模型的作答和评分过程,解析其中细节。例如挑选一题“情感理解”场景题:描述一个人物在特定情境下说了一句话,让模型推测他可能的情绪。假设GPT-4回答正确抓住了语气中的愤怒,而另一个模型只给出中性理解。我们可以在报告中附上简要对话:场景:“小李摔碎了杯子,老板皱着眉对他说:‘真是太棒了,你干得漂亮!’”(带有讽刺语气)GPT-4回答:老板其实在讽刺小李,情绪是不满和生气。 (评分:情感理解5/5)模型B回答:老板夸奖了小李,情绪高兴。 (评分:情感理解1/5,误判了讽刺语气)
随后解释GPT-4为何正确:因为捕捉到了反语和肢体语言(皱眉)信息,与人类直觉一致
。模型B为何错:可能缺少对讽刺语调常识的训练。这种案例分析让抽象的情感理解分数有了生动的注脚。
通过以上多种手段,DIKWP的评测报告将不再是冷冰冰的一串分数,而是一个有叙事性的分析,引导读者了解模型的智能特性。每一项评分都有理有据,每一个发现都有数据支撑和例证说明。这种可解释性对于模型开发者和决策者来说极为重要——他们能够据此制定有针对性的改进计划。例如,如果报告清楚指出模型在“智慧-因果推理”上远逊于同级模型,并举例说明了在哪些题上出错
,研发团队就可以优先增强模型因果推理相关的训练和算法。在AI安全监管者看来,报告详尽列出了模型在事实错误和偏见上的问题,他们也能更好地理解风险所在并制定相应措施。
结论:优化方案总结与展望
通过本报告的分析,我们为DIKWP评测体系制定了全面的优化方案,以适应快速演进的AI模型评测需求。主要改进包括:
评测指标拓展:新增情感认知和因果推理等高阶能力测试,使DIKWP评测覆盖更全面的人类智能要素。参考斯坦福情感认知框架和CaLM因果评测基准,我们将设计相应题目,填补现有评测在情感、因果方面的空白
。
自动化客观评分:引入LLM自动评委和专用评分模型,以标准化提示减少评分偏差
。结合参考答案和程序化比对,实现大规模评测下可靠一致的打分机制。此举将显著提高评测效率和客观性,避免人工判断的不稳定因素。
多模态评测适配:将DIKWP拓展至图像、音频等多模态任务,设计从感知到决策的跨模态测试。借鉴MME、MMT-Bench等基准丰富题型
,并采用统一的文本描述评价手段,确保不同模态下模型能力均可被量化比较。这样DIKWP将成为少数能够评估多模态大模型综合能力的体系之一。
融合权威基准:与MMLU、GSM8K、BIG-Bench、TruthfulQA等结合,保证DIKWP结果与行业常用指标对齐,增强可信度和对比性。我们的评测将同时报告这些基准的表现(或等效纳入),从而“一份报告,多种视角”。例如通过报告直接给出模型在MMLU的百分位、在TruthfulQA上的真确率
,使读者无需另行查阅即可了解模型各方面水平。
报告可解释与元分析:重构评测报告格式,按DIKWP维度详细列示分数并配以说明和案例,直观揭示模型能力的强弱项。通过错误类型分析和多模型结果的关联性研究,提炼出模型性能的关键影响因素和未来改进方向。这样一份报告不仅陈述“模型好不好”,更回答了“模型在哪好/不好、为什么好/不好”。这种深入分析将为模型研发提供直接指导依据。
最后,我们通过一个具体案例展望DIKWP优化方案的效果:在2025年的一次评测中,我们针对最新的GPT-4.5模型和某开源中文模型进行了优化后的DIKWP测试。结果显示,GPT-4.5在知识和智慧维度上接近满分(分别相当于MMLU 90%、GSM8K 95%),情感理解与因果推理也取得了优异成绩,达到了人类平均水平
;但在意图维度(如事实真实性)上仍有少许不足,TruthfulQA得分约65%
。相反,开源模型在专业知识(MMLU仅50%)和因果推理上暴露短板,但胜在意图对齐较好(几乎不产生有害输出)。通过报告中的数据和分析,我们一方面验证了GPT-4.5的全面领先地位,另一方面也发现它在安全真实性上需继续加强,而开源模型应重点补足知识和推理能力。基于这一评测,针对GPT-4.5团队提出了强化事实检查模块的建议,针对开源模型社区建议增加高质量专业语料和因果推理训练。数月后,当新版本模型推出,我们预期在DIKWP评测中会看到这些改进反映为对应维度分数的提升,从而印证评测体系的预测性和指导价值。
综上所述,优化后的DIKWP评测体系将在指标维度、自动化程度、模态广度、基准对标和结果解读五个方面显著提升当前LLM评测的能力,使之成为业内全面衡量AI模型智能水平的强有力工具。通过持续迭代完善DIKWP,我们有望跟踪并引导通用人工智能模型朝着更全面、更可信、更接近人类认知水平的方向发展
。今后,我们计划与开源社区合作,不断引入最新的评测任务和数据,共同丰富这一评测标准,为AGI时代的模型评价建立透明、公正和具有前瞻性的基石。
转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3429562-1472132.html?mobile=1
收藏