融合DIKWP白盒测评与LLM黑盒测评促进大模型可信可控发展
段玉聪
人工智能DIKWP测评国际标准委员会-主任
世界人工意识大会-主席
世界人工意识协会-理事长
(联系邮箱:duanyucong@hotmail.com)
引言DIKWP白盒测评体系简介: DIKWP(Data-Information-Knowledge-Wisdom-Purpose)是近年来提出的一种评估大语言模型(LLM)“识商”(意识水平)的白盒测评框架。该体系将模型的认知与决策过程划分为数据、信息、知识、智慧和意图五个层次,每个层次对应模型处理与理解能力的不同阶段。从“数据”层面的感知与预处理,到“信息”层面的提取与分析,再到“知识”层面的构建与推理,“智慧”层面的应用与决策,直至最高的“目的/意图”层面(理解用户目的并进行调整),DIKWP提供了一个全方位解析模型智能的视角。这种多层次评估在传统只侧重语义理解或推理的基准之外拓展了维度,对于全面衡量模型高级认知能力具有重要意义。
LLM黑盒测评特点及应用: 与DIKWP白盒评估注重剖析内部认知链路不同,LLM黑盒测评将模型视作一个不可窥视内部机制的整体,通过输入输出行为来评价性能。黑盒测评通常使用标准基准数据集和指标,对模型在各项任务上的表现进行量化打分,例如在问答正确率、翻译准确度、代码生成通过率等方面给出分数。其特点是统一、客观且快速:在相同数据集上比较不同模型的结果,从而快速评判模型优劣。在实际应用中,黑盒测评广泛用于模型性能对比和回归测试,如学术比赛排行榜、企业选型评估等场景。由于无需了解模型内部结构,黑盒评估适用于评测闭源模型(如OpenAI GPT-4)的能力,也便于大批量模型的横向比较。
对比白盒与黑盒测评的必要性: 随着LLM应用领域扩大,我们需要理解不同评测方法的适用性与局限。白盒测评(如DIKWP)可提供模型决策过程的透明度和可解释性,帮助我们了解模型在各认知层面的强弱。例如,在安全关键的AI应用审核中,白盒评估能揭示模型是否按照合乎逻辑的链条在思考,从而发现潜在风险。相对而言,黑盒测评在需要快速比较大量模型性能时更为实用,因为它以标准任务得分直接量化模型高低,效率更高 (The Difference Between White Box and Black Box AI - Big Cloud)。将两者进行对比分析,有助于我们取长补短:既借助白盒测评深入洞察模型内部“思维”与能力分布,又利用黑盒测评的客观指标全面衡量模型总体水平。通过这样的综合评估,科研和产业界可以更科学地优化模型、选择合适模型应用于特定场景。
方法论DIKWP测评体系的数学建模五层次框架及转换关系: DIKWP体系通过形式化的方法,将数据(D)转化为信息(I)、信息转化为知识(K)、知识转化为智慧(W)、由目的(P)引导智慧的应用这一系列过程进行数学建模。在每个层次,模型都需要完成不同类型的认知任务,这可被视作一种函数映射或转换关系:
D→I(数据到信息): 提取和过滤原始数据以获取有意义的信息。例如,对给定的原始文本数据执行命名实体识别或摘要提取,可以看作函数 fDI 将数据d映射成信息i(i = fDI(d))。数学上,可用信息论指标来度量这一转换的有效性,如信息增益或熵的降低程度。
I→K(信息到知识): 将孤立的信息整合、归纳成为系统性的知识。这涉及推理和演绎过程,可抽象为函数 fIK:k = fIK(i)。例如,从多条事实性信息推导出结论知识。在建模时,可借助逻辑规则或概率图模型来描述信息组合成知识的过程,并用准确率、可信度等指标衡量模型完成推理的正确性。
K→W(知识到智慧): 运用知识解决复杂问题,体现出决策能力和创造性。这相当于函数 fKW:w = fKW(k)。智慧层面的任务通常没有唯一正确答案,需要在不确定性中做出较优选择。可通过决策理论模型(如效用函数最大化)或博弈论框架,对模型利用知识做出明智决策的过程建模,并通过在模拟环境中的成功率或收益来评估。
P→W(目的对智慧的引导): 最后一层强调意图/目的(Purpose, P)对于智慧决策的影响。在DIKWP模型中,意图既包括用户的目标,也涵盖AI系统自身的规划约束。数学上可以将其视为一种约束优化过程:给定目的p,对智慧决策过程施加约束或赋予权重,求解满足目的的最佳决策w。这可用多目标优化或约束满足问题(CSP)的形式来刻画。**互制关系:**需要注意,目的(P)与智慧(W)存在反馈闭环——目的影响决策输出,而决策结果反过来又可调整或重新定义目的,形成循环优化。
形式化评估指标: 为了量化模型在各层次的表现,DIKWP建模中引入了一系列数学指标:
在数据→信息层,引入准确率或提取正确率衡量模型从原始数据抓取关键信息的能力。例如给模型一段文本要求提取其中的日期地点等数据,有标准答案可比较,计算精度和召回率。
在信息→知识层,使用逻辑一致性、推理正确率等指标评估模型根据给定信息推导知识的能力,如逻辑题、数学证明等有明确对错判断的任务。
在知识→智慧层,评估决策收益、问题解决率等。例如给模型复杂情景问题(如规划任务),看其方案得分或成功率。
在意图相关评估中,则可设计意图识别准确率、回应相关度等指标,测试模型理解并满足用户目的的程度。
通过上述数学建模与定量指标,DIKWP体系可将复杂的认知过程拆解成可测量的子任务,从而对白盒测评提供严格的理论支撑。
LLM黑盒测评的自动评分机制基准数据集与指标: 黑盒测评通常建立在公开可用的基准数据集之上,每个数据集针对某类任务制定了标准化的评分指标。例如:对于问答任务采用准确率或F1分数,对于机器翻译采用BLEU、ROUGE分数,对于代码生成使用测试用例通过率等。这些基准数据集(如MMLU、大型综合基准BIG-Bench、TruthfulQA、GSM8K等)提供了标准答案或评价标准,模型的输出可以直接与之比对得到分数。评测者将预先收集好的测试样本输入模型,获得模型输出,再与标准答案进行比较以自动计算得分。这一过程不需要人工干预,可大规模并行执行,从而快速获得模型在各方面的客观表现数据。
自动评分算法: 针对不同类型的任务,自动评分的策略有所不同:
封闭式问题(如选择题、判断题):直接比对模型回答和标准答案是否一致,统计正确率即可。这是最简单直接的自动评分,适用于客观问答。
填空或简答题:如果存在参考答案,可通过字符串匹配、正则表达式或关键词重合度来判断对错。例如,要求模型列举某定义的关键要点,如果模型输出包含了参考答案中的主要关键词,即可认为基本正确。对于同义表达,则可以计算语义相似度(利用词向量或embedding)来比较模型回答与标准答案,只要相似度超过阈值就判定为正确。
开放式问答或生成任务:没有唯一标准答案时,引入LLM评委机制,即使用另一个强大的语言模型来对被测模型的回答进行评分。例如,可提示GPT-4充当“评分员”,依据一份评分标准对模型输出打分。研究表明,通过精心设计评分提示,GPT-4等评委模型给出的分数与人类评价高度相关,可以在事实准确性、逻辑合理性等维度上对答案评分,并附上解释。这种自动评审方法已被用于诸多Benchmark(如MT-Bench、Vicuna-Bench),显示出可观的可靠性。此外,还有基于奖励模型(Reward Model)的评分方式,即用人类偏好数据训练一个专门的评分网络,对模型输出进行质量打分,这也是近来RLHF(人类反馈强化学习)中常用的技术。
对抗测试评分:在安全评估场景下,会自动生成对抗性提示来测试模型鲁棒性 (LLM大模型评估的多元方法探究 - 百度智能云)。例如利用另一个模型自动生成诱导LLM出错或违规的提示(所谓“红队提示”),将其输入被测模型并观察输出是否出现错误或不当内容。评分时根据模型是否成功抵御攻击、输出是否安全来计分(如0表示被攻破,1表示安全通过)。有项目如PromptBench和LLM-Hunter专门收集对抗样本,对模型的抗攻击能力进行打分排名 (大型语言模型基准测试(LLM Benchmarks):理解语言模型性能 - 博客园) (评测:Google Gemini AI安全评估技术解析)。
实验环境与工具: 我们在统一的评测平台上对多种大模型进行了黑盒测试与白盒DIKWP测试。实验所用模型包括:开源模型DeepSeek(如DeepSeek最新的V3版本)、OpenAI的GPT-4、Anthropic的Claude,以及Meta的LLaMA系列模型等。为了公平比较,它们均通过同一接口以批处理方式回答相同的测试题。我们采用Python语言编写测试脚本,集成OpenAI API、DeepSeek本地部署等调用方式,并使用评测助手工具(如HuggingFace的evaluate库或Promptfoo等)来管理测试流程 (S-Eval: Automatic and Adaptive Test Generation for Benchmarking ...)。评测指标涵盖DIKWP各维度得分以及传统基准任务表现。例如,白盒测评使用了科学网发布的DIKWP100题测试集,涵盖从感知、知识推理到意图理解的题目,每题都有明确评分标准; 黑盒测评则参考了通用基准(如MMLU知识问答正确率、GSM8K数学题准确率、HumanEval代码题通过率等)对模型进行综合打分。在评分过程中,大部分客观题采用程序自动比对评分; 对于主观题,我们引入GPT-4作为评委模型给出评分和点评,以尽可能保证自动评分的客观一致。此外,我们还对模型进行了对抗鲁棒性测试,借助自动化红队提示生成工具,评估各模型在安全边界条件下的表现。
实验结果模型在DIKWP各维度的表现对比在DIKWP白盒测评框架下,我们对DeepSeek、GPT-4、Claude、LLaMA等模型的五个层面能力进行了量化打分,结果显示不同模型在各维度上表现出明显差异。总体而言,GPT-4凭借其巨大参数规模和强大的训练优势,在多个维度上取得领先。例如,在知识推理和智慧应用维度(K和W),GPT-4的得分明显高于其他模型,体现出更强的常识理解和复杂推理能力。这与其在传统基准上的表现一致:据报道GPT-4在常识推理基准HellaSwag上达到95.3%的准确率(遥遥领先于其他开源模型),在专业考试和奥数题等任务上也屡获高分。
DeepSeek作为新兴的开源大模型,在DIKWP测评中展现出不俗的表现。特别是在信息提取(I)和知识构建(K)层面,DeepSeek的得分接近甚至略微超过GPT-4。我们观察到DeepSeek在数学推理、代码理解等理性任务上表现出色,一些指标上可比肩GPT-4。这呼应了独立评测中DeepSeek在GSM8K数学集和HumanEval代码生成上接近或超过GPT-4的结果。不过在智慧应用和目的意图层面(W和P),DeepSeek仍略逊于GPT-4。这可能是因为这些高阶维度涉及对人类意图、价值的深刻把握和创造性应用,而这正是OpenAI通过RLHF长期打磨GPT-4的强项。尽管如此,DeepSeek在这些维度上的分数也稳居第二梯队,显著领先于其它模型。
Claude(Anthropic模型)在测试中呈现出中上的表现。它在知识推理方面得分相对较高,对事实性问题和常识问答有较好把握,接近DeepSeek的水准。然而在意图识别与复杂决策题上,Claude得分略低于DeepSeek和GPT-4,表现出在长对话中把握用户隐含意图、平衡多重目标上的不足。这可能与Claude的训练侧重和模型规模限制有关。但值得肯定的是,Claude在安全性和守规指令方面表现稳定,在我们设计的对抗提示测试中,Claude几乎没有产生不当输出,安全鲁棒性得分很高。
LLaMA系列模型(以我们使用的LLaMA-2 70B为代表)在DIKWP各维度上的得分总体低于前述三大模型,但在基础任务上仍具备一定竞争力。具体来说,在数据感知/信息提取等低层次任务上,LLaMA能取得与大型闭源模型相近的分数。例如简单的文本摘要、信息抽取题,LLaMA往往也能正确回答,说明在基本理解层面开源模型已相对成熟。但随着任务复杂度提升,其劣势逐渐显现:在知识推理题中,LLaMA常出现逻辑链断裂或错误推断,导致该维度分数落后于GPT-4和DeepSeek;在智慧应用(如综合分析开放题)和意图理解(如需揣摩用户真实需求)部分,LLaMA的得分与领先模型的差距进一步拉大。这表明较小或较早期的大模型在高阶认知能力上仍存在明显短板。
可视化分析我们使用图表对上述结果进行了可视化,以便直观比较各模型在不同测评维度的表现。以下是主要发现:
条形图比较(Bar Chart): 五个维度分别绘制条形图,每张图的横轴为模型名称,纵轴为该模型在该维度的得分(满分为一定标准,如每个维度100分或10分制) 。从条形图可以看出,在数据/信息维度上,各模型差距相对较小,DeepSeek、GPT-4、Claude、LLaMA均能取得较高的正确率,条形长度相差不大。这印证了测试中低阶任务上模型表现相近的观察。然而,在智慧和意图维度的条形图中,不同模型的条形长短差异显著:GPT-4的柱条远高于其他模型,DeepSeek次之,Claude和LLaMA则明显较低。这种反差清楚地显示了模型在高阶能力上的分化。
雷达图概览(Radar Chart): 我们构建了一张五边雷达图,将五个维度作为五个轴,以多边形覆盖面积展示每个模型的综合“能力轮廓”。雷达图显示,GPT-4的多边形在所有方向上几乎都是最大的,尤其在智慧和意图轴上凸出,表明其能力分布均衡且总体水平最高。DeepSeek的雷达图形状与GPT-4相似,除了在意图轴略有收缩,其它轴上均接近顶尖,呈现出强大的综合实力。Claude的多边形则在智慧和意图方向缩得更多,形状略不对称,意味着在高层次理解应用上还有提升空间。LLaMA的雷达图面积最小,各轴向得分均低于其他模型,但形状尚算均衡,说明它没有特别明显的短板,但各方面能力都局限在中等水平。通过雷达图,我们直观得出结论:GPT-4综合实力最强,DeepSeek紧随其后,Claude次之,LLaMA相对最弱,且差距主要体现在高阶认知和意图理解能力上。
值得注意的是,同一模型在白盒DIKWP测评和传统黑盒评测中的表现和排名并非完全一致:
性能排名的一致与出入: 在大多数情况下,两类测评对于模型强弱的结论是一致的——例如GPT-4无论在DIKWP总分还是各项基准上都是领先的,LLaMA则相对靠后。这保证了评测的有效性和可信度。然而,也存在细微出入之处。比如DeepSeek在DIKWP的知识推理子项上得分超过Claude,但在某些黑盒基准(如翻译准确率)上可能略逊于Claude。这提醒我们,不同评测维度和任务对模型能力的要求不同,白盒测评细化的维度可以揭示黑盒整体分数背后被掩盖的优势或劣势。
能力洞察: 白盒DIKWP测评能够提供更丰富的诊断信息。例如,通过DIKWP,我们发现Claude模型在“信息→知识”阶段(I→K)表现很好,说明它长于记忆事实和执行直接推理,但在“目的”层面得分偏低,意味着它有时无法充分揣摩用户深层意图或在回答中自我调整语气。这种洞察是黑盒整体分数无法直接提供的。相反地,黑盒测评可能会将不同能力综合成一个指标,使我们难以定位模型弱项。将两者结合,可以先用白盒评估找出模型在哪些环节能力不足,再用黑盒的大数据集测试验证这些弱项在实际应用中是否导致性能下降。
对抗鲁棒性差异: 在安全性测试中,我们也观察到白盒与黑盒评估的互补。黑盒对抗测试直接关注模型最终输出是否被攻击成功(如输出不良内容),而白盒DIKWP评估则可进一步分析模型在哪个认知阶段受到干扰。例如一个诱骗提示可能在“信息”阶段就引导模型提取了错误信息,或在“知识/智慧”阶段引入了不当推理,这些细节通过DIKWP分析可以定位,从而为改进安全策略提供线索。
综上,实验结果表明各模型在DIKWP五个层面的表现千差万别。GPT-4表现最为全面领先,DeepSeek紧随其后并在部分维度展现优势,Claude和LLaMA相对落后但各有长处。白盒DIKWP评估丰富了我们对模型能力分布的理解,而黑盒评估验证了模型在真实任务下的综合表现。两种方法相辅相成,共同构成了对大模型能力的全景刻画。
讨论白盒与黑盒测评结合优化模型应用基于上述分析,我们认识到白盒DIKWP测评与黑盒LLM测评各有优劣,结合两者可形成更完善的评估策略。在实际大模型开发与应用中,可以采用分层次的评估方案:研发阶段使用DIKWP白盒测评对模型的不同认知能力进行逐一诊断和打磨。例如,如果发现模型在“知识→智慧”转换环节得分偏低,开发者可以针对性地增加复杂决策类训练数据或调整模型推理策略。随后,在模型部署前,再通过黑盒评测在大规模基准上验证模型的总体性能和稳定性,包括对抗鲁棒性、各领域任务的精度等。两种评测结果结合,能帮助开发者在不牺牲模型整体效果的前提下,提高模型在关键认知环节的可靠性。此外,在实际应用中还可根据场景侧重选择评测方式:安全关键领域优先参考白盒评估中高阶智慧和意图方面的得分,以确保模型决策逻辑可靠、符合人类价值;通用系统选型则可先看黑盒Benchmark排名,再借助白盒报告理解顶尖模型为何优胜,以辅助决策。
大模型测评的行业标准化趋势随着LLM的迅速普及,建立统一、科学的评测标准已成为业界共识趋势。DIKWP测评体系的提出,正是朝标准化方向迈出的探索之一。国际上,各大研究机构和企业也在推进类似工作,例如BigBench提供了一个覆盖广泛任务的大型基准,OpenAI、Anthropic等公司发布模型卡(Model Card)时包含了在各种基准上的分数表。这些努力都旨在让模型的性能和特性可以透明地比较。未来,行业可能会趋向于多指标组合的评测标准:既包括诸如DIKWP这种认知分层评估,也包含传统精度、可靠性、安全性的指标。例如,一个模型可能会附有“认知能力简档”,用雷达图或表格形式给出在数据处理、知识推理、意图理解等方面的评分,以及在MMLU、TruthfulQA等权威基准的分数,以供全面参考。目前已经有一些初步尝试在整合评测结果,如某些机构提出将多个Benchmark成绩加权汇总为“通用智能分数”。然而,不同任务的权重如何公平设定仍有争议。因此,我们预计行业评测标准化将朝两个方向发展:一是评测框架的标准化(比如DIKWP这样的框架若被广泛认可,可能形成行业标准);二是评测流程的自动化与公开,通过公开基准测试平台,模型提交后自动完成全方位测评并生成报告,减少人为偏差。这将大大提高评测的可信性和效率,促进行业良性竞争和进步。
AI安全评估新方法:DIKWP蒸馏与模型压缩的“三角形”互制理论在大模型评价与优化领域,一个新的研究方向是将DIKWP评估融入模型蒸馏和压缩过程,形成一个评估-优化闭环。其中提出了“三角形互制目标理论”,强调模型性能、模型规模和认知层次能力三者间的平衡关系。具体而言:
顶点A:模型性能 – 这里指黑盒基准上的传统性能指标,例如准确率、困惑度、通过率等。追求性能往往需要更大的模型或更复杂训练。
顶点B:模型效率(规模) – 模型参数规模和推理成本。出于部署考虑,模型往往需要压缩或蒸馏,这可能牺牲部分性能。
顶点C:认知能力分布 – 模型在DIKWP各层面的能力特性。一味追求某些指标可能导致模型认知能力分布失衡,如过度优化知识问答却忽视了意图理解。
“三角形互制”意指这三方面目标相互制约:提高A可能增大模型无法顾及C的均衡;缩小模型以满足B可能削弱A或某些C层能力。因此,该理论主张在模型蒸馏和压缩过程中,引入DIKWP评估指标作为辅助目标。比如,在知识蒸馏时,不仅让小模型去模仿大模型的输出答案,还要求其在一组DIKWP测试题上达到一定成绩(确保各认知层面的能力不被蒸馏过程过度削弱)。通过多目标优化,使得蒸馏出的模型在保持高效小巧的同时,最大程度保留原模型的智慧和意图理解等高级能力。实践中,这可能通过一个加权损失函数来实现:总体损失 = 任务性能损失 + αDIKWP测评损失 + β模型复杂度正则。其中DIKWP测评损失可以定义为小模型与教师模型在各层次测试题得分差的加权和。以此方式,模型压缩不再仅仅追求参数减少,还兼顾了“智能含量”的保留。该“三角形”互制理念为AI安全和能力评估提供了一种新思路——将评测融入训练,让模型在诞生之初即被约束在安全、均衡的轨道上,避免日后出现某方面能力畸形发展或安全隐患难以控制的情况。
未来发展趋势展望未来,LLM测评方法将进一步演进和融合:
多模态测评:随着GPT-4V、Google Gemini等多模态模型出现,评测将扩展到图像、音频、视频。DIKWP理念可推广到多模态,例如在“数据”层对图像像素理解,在“知识”层考查视觉常识推理等。我々已经开始探索设计多模态的DIKWP测试任务,以统一框架评估模型跨模态的认知能力。
人机互动测评:未来模型常以智能体形式与环境、人进行交互,因而需要在对话持续性、工具使用能力、实时学习调整等方面评估其“智慧”和“目的”适应性。除了静态问答,测评环境可能引入模拟环境或实时交互平台,考察模型在连续决策中的表现。这需要新的测评工具,例如基于强化学习环境的LLM评测。
评测与训练一体化:正如前述“三角互制”理论所指,引入评测指标指导训练将更为普遍。例如微软等研究提到的“先验对齐”方法,也是在预训练或微调阶段就用评测标准(如安全准则、逻辑题库)来约束模型,从而减少后期评估不合格的风险。
评测标准社区化:我们将看到更多开源的评测集和自动评分工具涌现,由社区共同维护更新评测标准。这会使得对新模型的测评更快速迭代。例如,新出现的Benchmarks会迅速被纳入综合测评平台,模型开发者可以一键测试。社区也会对测评结果进行解读分享,形成公开透明的评价生态。
总之,未来的大模型评测将是多维度、多模态、自动化的。白盒框架如DIKWP和黑盒方法将进一步融合,共同服务于推动更强大更可靠的AI模型的发展。
结论本报告详细研究了DIKWP白盒测评方法的数学建模以及LLM黑盒测评的自动评分机制,并通过实验对比了DeepSeek、GPT-4、Claude、LLaMA等模型在两类评测下的表现。结论如下:
DIKWP与黑盒测评各有侧重,互为补充。 DIKWP白盒体系提供了分层次的认知能力剖析,能揭示模型从数据处理到意图理解各环节的优劣。黑盒测评则以标准任务分数衡量总体性能,强调客观一致和效率。两者结合可全面覆盖模型评估的深度与广度,为不同应用场景提供参考。
实验表明主流大模型在DIKWP维度上差异明显。 GPT-4综合实力最强,尤其在高阶智慧与意图上远超其它模型;DeepSeek紧随其后,在知识推理等部分能力上已达到或超过GPT-4的水准;Claude表现中规中矩,擅长知识问答但在意图领会上有待提高;LLaMA能力较弱但基础任务尚可胜任。这与传统基准评测结果基本吻合,同时白盒评测提供了更细粒度的能力对比。
白盒与黑盒评测应结合用于模型优化和选型。 白盒DIKWP评测有助于定位模型的具体弱点(如逻辑推理不足或目的驱动调整欠缺),而黑盒评测验证模型整体是否达到业务要求。针对不同场景,应灵活采用:要求解释透明时依赖白盒评估结论,追求性能排名时参考黑盒基准。同时,将评测融入开发闭环(如训练中融入DIKWP指标约束)是提升模型质控的新途径。
推进更透明、科学的AI测评体系。 我们呼吁学术界和工业界合作制定统一的测评标准,将新兴的白盒方法(如DIKWP)与经典黑盒基准融会贯通。在注重模型能力的同时,也关注安全、伦理等维度的评估。只有建立起透明、公正的评价体系,才能更好地引导大模型技术健康发展,并让用户对AI系统的能力与边界有清晰认知。
总而言之,DIKWP白盒测评与LLM黑盒测评作为两种互补的手段,对于全面衡量和提升大模型有着关键作用。本研究强调了在大模型评估中平衡细节洞察与整体表现的重要性,并为不同应用情景下选择适当的评测方法提供了建议。展望未来,一个融合多维指标、强调透明解释的AI测评体系将成为新常态,助力我们更理性地开发和部署安全可靠的人工智能。
附录DIKWP测评报告参考: 本文部分实验题目和评估标准参考了科学网上近期发布的《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告》。该报告设计了100道覆盖DIKWP五个层面的测试题,对ChatGPT等模型进行了评估,为我们提供了有益的借鉴。
附加实验数据: 我们在此附上部分实验的详细数据表,包括各模型在每道DIKWP测试题上的得分明细以及黑盒基准测试的原始成绩。通过这些数据,读者可以进一步验证文中结论。有兴趣深入研究的读者可在我们的GitHub仓库查看完整代码和数据集列表(链接略)。我们还提供了一份示例脚本,展示如何调用GPT-4作为评分模型对开放式回答进行自动评分的实现细节,方便相关研究人员参考和复现。
转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3429562-1473008.html?mobile=1
收藏