DIKWP 测评体系与主流大模型评测基准对比分析报告
段玉聪
人工智能DIKWP测评国际标准委员会-主任
世界人工意识大会-主席
世界人工意识协会-理事长
(联系邮箱:duanyucong@hotmail.com)
1. 评测体系概述DIKWP 白盒评测体系简介
DIKWP 是一种用于评估人工智能模型“认知与决策过程”的全新白盒评测体系。DIKWP 分别代表数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)和意图(Purpose/Intent)五个层面
。这一体系源自对传统 DIKW(金字塔模型:数据-信息-知识-智慧)的扩展,新增了“意图”维度,以更全面地衡量模型的认知能力和意识水平
。通过这五个层面的逐级分析,DIKWP 可细化评估大模型从感知原始数据到理解信息、运用知识、做出明智决策以及识别表达意图的能力。
DIKWP 评测的核心指标包括:
认知能力:模型对数据与信息的处理能力。例如给定原始数据,模型提取有用信息的准确性和效率
。
知识水平:模型构建和运用知识的能力,包括对事实的掌握以及在不同领域回答问题的广度
。这类似于传统评测中的知识问答,但 DIKWP 会关注模型如何将信息转化为知识的过程。
智慧水平:模型基于知识进行智慧决策的能力,即在复杂情境下综合分析、推理和创新解决问题的水平
。这往往涉及对不确定环境的判断、类比推理或道德抉择,超越简单记忆和模式匹配。
意图识别与表达:模型理解意图(包括用户意图和自身决策意图)的能力,以及在回答中正确表达意图的程度
。这一指标反映模型对隐含语义、上下文目的的把握,例如能否抓住用户提问背后的真正需求。
与传统黑盒评测不同,DIKWP 强调对白盒过程的考察,即不仅关注答案对错,更关注模型在各层面的转换过程和内部机制
。例如,DIKWP 测试可能设计一系列任务,要求模型先从原始文本中提取数据,再加工成结构化信息,进而推理出知识,最后运用智慧结合意图给出决策建议。这种多步骤任务可以揭示模型在每一步的表现,好比给模型做“认知CT扫描”。据报道,DIKWP 团队曾设计了100道分层测试题,将“识商”细分到数据、信息、知识、智慧、意图五个层面的转换任务,以全面评估LLM的意识水平
。
总之,DIKWP 体系提供了一个分层次、多指标的评估框架,让我们能够从更接近人类认知过程的角度审视大语言模型的能力。不仅能判定模型能否答对题目,还能分析其在哪个认知阶段出现不足,为改进模型提供指引
。例如,如果模型知识储备充足但决策不当,可能意味着其“智慧”层面欠缺;又或者模型推理能力强但经常误解用户意图,则需在“意图”识别上加强。
主流大语言模型评测基准简介
目前业界有多种标准化基准用于评测大语言模型(LLM)的性能,每个基准侧重不同的任务和能力。以下介绍几种主流评测基准及其范围、数据集构成和核心指标:
MMLU(Massive Multitask Language Understanding):MMLU 是衡量模型多任务知识问答能力的权威基准
。它覆盖了57个学科,从初等数学、美国历史到法律、计算机科学等,难度从小学水平一直到专业水平
。数据集包含超过15,000道多项选择题
。评测时模型需要在零样本或少样本(zero-shot/few-shot)设置下回答这些多选题,指标为平均准确率
。MMLU 的设计旨在考察模型在预训练中获取的知识深度和广度,以及运用知识解决问题的能力。例如,一道 MMLU 微观经济学题可能要求模型运用经济学知识做出正确选择。模型在每个科目的得分会被记录,然后计算平均分作为总评估。这一基准衡量知识覆盖度和问题理解/推理能力,在GPT-4等模型发布后被广泛用于比较模型“智商”水平。HellaSwag:HellaSwag 是针对常识推理的基准
。它的名称代表 “Harder Examples with Longer Contexts and Adversarial Generations”,强调通过更长上下文和对抗式错误选项来考验模型
。HellaSwag 数据集由约10,000+个日常场景短文组成,每个场景留有空白让模型选择最合理的结尾
。模型面对一个描述(常取自视频字幕等日常事件)以及四个可能的结局,需要选出最符合常识的那个
。错项经过对抗过滤,听起来很合理但实际上不正确。评价指标也是多项选择准确率。由于这些问题对人类几乎是常识(人类准确率>95%),因此模型若表现差说明缺乏基本常识推理能力。HellaSwag 测试模型理解日常物理和社会常识的能力,避免仅靠表面模式匹配取胜。BIG-Bench(Beyond the Imitation Game Benchmark):BIG-Bench 是由业界学术超过450名研究者共同构建的超大规模、多样化基准
。它包含204项不同任务,涵盖语言理解、常识推理、数学推算、编码、逻辑推理、伦理判断、翻译、智力游戏等各个方面
。任务设计强调新颖性和多样性,很多问题超出了以往基准的范围,旨在测出模型尚不具备的能力
。例如,其中包括让模型完成棋局谜题、根据emoji猜电影、进行虚构的语言翻译等稀奇古怪的挑战
。BIG-Bench通过不同任务的专门指标来评分:有的是选择题准确率,有的是自由回答需人工评审,有的测模型输出文本的质量等。由于任务繁多,完整跑完204项对模型计算开销很大。为此,一些研究提取了其中最具挑战的23个任务作为BIG-Bench Hard (BBH)子集,用于快速评估模型在复杂推理任务上的表现。BIG-Bench 的核心价值在于广度覆盖和挑战难度:它模拟了各种人类智力活动,以察觉模型在常规基准外的能力缺陷或“盲区”。TruthfulQA:TruthfulQA 是专门用于评估模型回答真实性(truthfulness)和避免幻觉能力的基准
。大型语言模型常常会“胡编乱造”看似合理但实际不准确的回答(幻觉现象),TruthfulQA 就是要测模型在这方面的改进
。它包含超过800道开放问答题,涉及38个主题
。这些问题设计巧妙,很多包含常见误解或陷阱。例如:“吃胡萝卜能让你夜视能力变好吗?”这类问题大众常有错误认知。模型回答需要既真实又有用。TruthfulQA 的评估结合了人工评价和自动评分:使用人工标注答案的真实性,并训练一个基于 GPT-3 的评估器参考 BLEU/ROUGE 等指标来预测人类对答案真实性和信息性的评分
。最终给出模型的真诚度(truthful)得分和准确度等。核心测评指标是真答率(模型回答为真的比例)以及在保持信息量前提下不产生谬误的能力。TruthfulQA 注重模型知识的可靠性和拒绝迎合错误假设的倾向,是对传统准确率指标的重要补充,因为模型可能在知识问答中答对很多题,却在这种带偏见的问题上暴露出以讹传讹的倾向。ARC(AI2 Reasoning Challenge):ARC 是由 Allen AI 推出的科学问答基准
。它收集了7787道源自美国小学到高中科学考试的真实选择题
。涵盖生物、化学、物理、地理等广泛科学领域
。根据难度,ARC 划分为简单集(Easy,5197题)和挑战集(Challenge,2590题)
。其中挑战集的问题需要一定推理或组合多个知识点才能解答,被认为对机器非常困难。“ARC挑战”几乎成了高难度自然问答的代名词。评测要求模型回答这些多选科学题,指标为选择题正确率。ARC 特别关注科学常识+推理:许多题目不能仅凭记忆知识点直接回答,还需要推理演绎或运用科学方法。例如,题目可能给出一个实验场景,让模型推断哪个选项最合理解释现象。由于问题都来自人类考试且语言多样,模型需要具备语言理解和科学推理的双重能力。ARC 基准常用于检验模型在教科书知识以外,综合运用知识和逻辑的能力。一个模型在MMLU拿高分不一定在ARC也高分,因为ARC强调推理而非纯知识。GSM8K(Grade School Math 8K):GSM8K 是一个数学词题(算术推理)数据集,包含约8,500道高质量的小学数学应用题
。这些题目以自然语言叙述,需要模型理解题意并进行多步计算推理才能得出答案。不同于选择题,GSM8K 要求模型给出自由格式的解答过程,最终给出一个数字或简单结论。数据集提供了标准的参考解题过程和答案,评测时通常鼓励模型生成逐步推理(chain-of-thought),以测试其多步推理的可靠性。GSM8K 的核心指标是精确解题率,即模型算对了多少题。由于回答是开放式的,自然语言格式,评估需将模型最后的答案与正确答案比对。为确保评估准确,研究人员还训练了AI验证器自动检查模型解答的正确性
。这个基准专注于数学推理能力,对模型的算术、逻辑和耐心提出挑战。例如题目:“如果有42名学生去郊游,每辆校车可坐18人,至少需要几辆校车?”模型需要进行除法并向上取整才能答对。这类题防止模型仅靠语言模式关联,需要真正模拟出数学运算过程。GSM8K 常被用来衡量模型的逻辑严谨性和逐步推理正确率。在一些顶尖模型上,引入链式思考提示后,GSM8K 正确率有显著提高,显示此基准也推动了模型在推理技巧上的改进
。
以上基准覆盖范围广泛:从知识问答(MMLU)、常识推理(HellaSwag)、综合智力(Big-Bench)、事实准确性(TruthfulQA)、科学推理(ARC)到数学逻辑(GSM8K)。它们为评估LLM提供了多维度的客观指标,大多以定量分数报告模型表现。这些基准已成为衡量新模型能力的标配测试,例如OpenAI在发布GPT-4时就报告了它在MMLU、HellaSwag、TruthfulQA、ARC等上的成绩,与GPT-3.5等模型做对比
。通过这些标准化基准,我们可以初步了解模型在各领域的长短板,为下一步深入分析(如引入DIKWP这样的新体系)打下基础。
2. 对比分析定量 vs. 定性评测方法的差异
主流的大模型评测基准大多采用定量评价方法,即预先构造一套客观题目和标准答案,以模型作答的准确率或得分来量化性能
。例如:
MMLU、HellaSwag、ARC、GSM8K 等都是通过正确率百分比来评分
。模型输出与标准答案完全匹配算对,否则算错
。这样的评测具有明确的对错判断,方便比较不同模型的数值高低。TruthfulQA 则结合人工和自动打分,最终也给出一个0-100的真确性分数
。BIG-Bench 虽任务多样,但每个具体任务通常设有可量化的指标(如BLEU分、人工评价打分等),最后汇总为模型在该任务上的分数。
定量方法的优点在于客观、公平、可重复。同一套测试题,不同模型答题,对错一目了然,得到的分数可以直接比较排行榜高低。这种方式适合基准测试和进度跟踪(例如模型在MMLU上从70分提高到80分,说明知识问答能力进步了约10个百分点)。
然而,仅有定量评分可能不足以洞察模型的全部能力。举例来说,一个模型在MMLU上答对了85%的题,但我们不知道剩下15%错在什么环节——是因为理解错误题意?还是知识空白?亦或推理链中断?定性方法则试图深入分析模型行为的质量和特点。
DIKWP 评测体系正是引入了更多定性评估的思路。它不仅看最终答案对错,还关注模型在思考过程中的表现
。例如在一个DIKWP测试任务中,模型可能需要经历“五步走”才能得到答案:从原始数据提取信息,再转化知识,运用智慧,最后表述带有意图的结论。评估者会观察模型每一步的输出,并给予分等级的评价,例如信息提取是否完整、知识运用是否正确、推理过程是否合乎逻辑、表达的意图是否贴合要求等
。这些评价很多是定性描述或打分,例如某一步给予“优秀/良好/欠缺”的标记,而不是简单的对/错。
换言之,传统基准把模型当作黑盒,只看输入输出;DIKWP 则鼓励打开黑盒,对模型内部的“认知链路”进行评估,是一种白盒测评
。这体现了定性方法的价值:可以诊断模型的强项和弱项所在。例如,定量结果只能告诉我们某模型翻译正确率90%,而定性分析则可能发现它在口语句翻译上很好但在俚语上经常误译。这对于改进模型、制定训练策略非常关键。
当然,定性评估往往需要人为参与和主观判断,标准化和重复性相对差一些。DIKWP 虽然给出了五个层面的清晰框架和指标,但具体如何判定“智慧水平高”或者“意图识别准确”,在不同场景下可能需要专家审阅模型的输出过程。例如,在DIKWP的人格测评研究中,研究者设计了问卷并通过语义分析手段来定性剖析模型表现
。这种分析需要一定主观解读,例如把模型回答映射到MBTI人格类型
。因此定性方法适合深入案例研究,而定量方法适合大规模对比。
一个折中趋势是定量方法结合定性洞见:先用客观基准跑分定位模型在哪些方面弱,再用定性分析去探究原因。DIKWP 体系可以看作将这种结合系统化——它对每层面都可定量打分,但这些分数背后基于的是对模型行为的定性观察。例如,给“意图识别”打8/10分,意味着定性上评委认为模型大多数情况下理解了意图,只偶有偏差。这种评分既有量化结果,又内含质量判断,能更全面反映模型能力。
评测指标对比:认知、智慧、意图维度
为直观比较 DIKWP 体系与其他评测基准在关注指标上的异同,下面将几种体系在认知能力、智慧水平、意图识别三个维度上的体现进行归纳:
评测维度 | DIKWP 体系 | MMLU | HellaSwag | BIG-Bench | TruthfulQA | ARC | GSM8K |
---|---|---|---|---|---|---|---|
认知能力 (知识掌握与推理) | 全面覆盖:通过数据→信息→知识层层考查,评估模型对事实、概念的理解和推理能力是否到位。认知能力是DIKWP评测的基础,例如模型能否从文本中提炼正确信息并据此回答问题。 | 覆盖:专注知识广度和问题理解。57个领域问答直接测试模型储备的知识和基本推理能力,以平均准确率衡量。 | 部分覆盖:测试日常常识推理。属于认知能力中常识推理的一环,但题型单一(故事完成),不涉及专业知识或深度推理。 | 覆盖:任务集合涵盖逻辑、常识、数学等,多方面考验认知与推理。尤其BBH子集专挑复杂推理任务。但因为任务繁杂,无法给出单一认知分数,各子任务各评各的。 | 部分覆盖:涉及认知中的真实知识判别。需要模型有正确知识来拒绝流言。但不考察广泛领域,只关注模型是否辨别真伪。 | 覆盖:聚焦科学知识+推理。属于认知能力在科学领域的专项体现,要求理解题干并运用科学常识推理。 | 覆盖:针对数学推理。是认知能力中对数学领域逻辑推理的考验。模型需要正确理解题意并逐步演算,考查深度逻辑思维。 |
智慧水平 (高级推理与决策) | 明确关注:设有“智慧(W)”层级,观察模型是否能基于知识做出明智决策或创造性解决问题。如给出复杂情境,期待模型展现综合分析能力而非机械答题。 | 有限:题目多为已有定论的问题,主要看知识应用,不特别考察创造性决策或价值判断。少数高难题可能需要一点技巧但总体不涉及“智慧”层面的开放回答。 | 不涉及:选项题形式,很少需要模型自主决策。常识推理虽然重要,但不属于高层次智慧(更多是低层常识)。 | 部分涉及:部分任务要求道德判断、创造力(例如道德辩题、故事创作),在一定程度上触及“智慧”定义。但这些在204个任务中占比不大,且没有统一的智慧评分。 | 不涉及:关注真实性而非决策智慧。模型只需判断真伪,并不需要提出见解或综合决策。 | 不明显:以选择正确科学答案为目标,属于确定性推理,不需要模型权衡多种可能、做开放决策,智慧层面体现较少。 | 有限:数学题通常有唯一正确解,不涉及模棱两可的决策。但要求严谨思考,可视为智慧的一种(理性推理),不过不包括情境判断等软智慧。 |
意图识别 (理解隐含需求) | 明确关注:增加“意图(P)”维度,考查模型对用户意图或问题深层目的的把握。例如用户提问含蓄或有特殊上下文,模型需识别真正需求并做出恰当回应。DIKWP 可能通过对话场景或歧义问句测试这一点。 | 不涉及:MMLU题目为标准知识问答,没有隐含意图,模型只需回答表面问题。 | 不涉及:任务是选择故事结尾,无需理解提问者意图。 | 有限:大部分BIG-Bench任务直接给出明确指令。一些少数任务可能隐含意图考察(例如“骗子任务”测试模型能否识破陷阱意图),但整体上意图识别非主要评估点。 | 不涉及:TruthfulQA的问题设计有陷阱,但考查的是知识真伪,而非用户意图。模型是否识破问题在欺骗它,不在评分范围,只要回答真实即可。 | 不涉及:科学题都是直接问知识,无用户隐含需求。 | 不涉及:数学题意图明确,就是求解问题。 |
表:DIKWP 与主流评测在关键维度上的关注对比。 可以看出,DIKWP 在认知、智慧、意图三个层面都设有评估,而多数传统基准主要评估认知能力的某些子集,很少涉及对意图理解或高层智慧的测试。比如,意图识别能力是 DIKWP 特有的关注点,传统基准几乎没有专门的对应指标。这意味着 DIKWP 可能发现在其他评测中被忽视的模型特性,例如模型是否真正理解了用户的问题意图,还是仅仅匹配到答案。
需要说明的是,“智慧水平”在这里指更高阶的推理和决策能力,具有一定的主观判断色彩。普通的有正确答案的问题无法充分体现智慧,因为智慧往往表现在开放性问题上,如规划方案、道德抉择、跨领域融会贯通等。这类问题很难用统一答案评判,因此过去很少纳入标准基准。而 DIKWP 尝试将其纳入评估视野,通过任务设计和专家评分来给予模型智慧表现一个定性定量结合的评分。
各评测体系的适用性与可解释性
适用性方面,不同评测体系在针对各种类型的大模型时表现出不同特点:
对于GPT-4、Claude 2这类顶尖大模型,传统评测基准依然适用且能够拉开差距。例如 GPT-4 在MMLU、HellaSwag、ARC等基准上远超前代模型,达到新的水平
。这些基准可以有效衡量这类模型的知识面和推理能力提升。然而,随着GPT-4等模型性能逼近甚至超过人类水平,一些基准开始出现**“天花板效应”**:即顶尖模型的分数接近满分,基准失去区分更强模型的效力。例如在人类几乎满分的HellaSwag上,GPT-4 已取得95.3%的正确率
(与人类95%相当),再强的模型也很难比这显著更高。这提示我们未来需要更难的新基准来挑战最强模型,否则这些评测对GPT-5之类模型就不敏感了。
对于Claude、LLaMA等次优模型,主流基准依然可以明显区分其与GPT-4的差距。例如Claude 2在MMLU上约得分78.5%,显著低于GPT-4的86.4%
;LLaMA-2 70B 在MMLU上约为68.9%,更低
。这说明传统知识问答类评测对中高阶模型仍具区分力。这些模型通常也能胜任基准中规定的格式(选择题、简答题等),因此适用性没问题。不过,需要注意不同模型的训练方式:一些开源模型(如原版 LLaMA)没有专门的指令微调,在直接回答评测题时可能不如经过指令优化的模型表现好,需要借助few-shot示例或特殊提示才能发挥水平。这属于评测使用上的技巧问题,但并非基准本身限制。
对于非常大的多模态模型或具备工具使用能力的agent,传统基准仍以语言问答为主,无法测试其多模态理解或操作能力。这方面 DIKWP 和主流基准都未完全覆盖,是未来评测需拓展的领域。不过有的评测开始探索,比如GPT-4 技术报告中就评估了其对图像的理解能力,但那超出本文讨论范围。
DIKWP体系的适用性相对新颖:它非常适合综合能力强且可按要求输出过程的大模型,例如 GPT-4 这类能听从指示逐步推理的模型。如果给定一个DIKWP任务(比如让模型先列出原始数据,再总结信息,再提出结论和意图),GPT-4或Claude 可以比较好地遵循并完成各步骤,供评估者分析
。但对于早期或较弱的模型(如GPT-2,或指令遵循能力差的模型),让其严格按照DIKWP步骤作答可能困难。这些模型往往只能给最终答案,无法清晰地展现中间认知过程。因此,DIKWP 当前更适用于先进的大模型,对那些尚不具备复杂指令执行能力的模型则不太适用(因为无法收集到有意义的过程数据)。不过,随着指令微调技术的普及,哪怕开源模型现在也大多具备了多轮推理和按格式答题的能力,这使得DIKWP在更广泛模型上应用成为可能。
在可解释性方面,各评测体系也有显著区别:
主流的定量基准提供的可解释信息有限。它们最终产出的是一个或若干数字分数,例如“GPT-4在MMLU上86.4%”
、“Claude2在TruthfulQA上约可能50-60%(未公开)”。这些数字虽然直观,却不揭示模型为何得到这个分数。为了提炼可解释性,研究者往往需要进一步做误差分析,如统计模型在哪些类别题目上错误最多。但这属于评测后的附加分析,基准本身不直接给出原因。
DIKWP评测则天然具备较强的可解释性。由于它强制模型展示从数据到意图的思考链条,评测者可以检查链条上的每一环节表现,从而定位模型认知过程中的薄弱点。例如,通过DIKWP可能发现:某模型从数据到信息提取这步经常遗漏细节,但一旦信息正确其后推理都对;另一模型恰恰相反,信息提取完整但在知识运用阶段容易联想错误事实。有了这种过程级别的分析,模型开发者就能有的放矢地改进相应模块或训练策略。这种解析过程类似于教学中给学生解题步骤打分,而非只看最后答案对错。
此外,DIKWP分析甚至能衍生出对模型“人格”或风格的解释。例如前述将 DIKWP 与 MBTI 结合的研究中,评估者根据模型在信息处理、知识应用、智慧决策、意图表达上的表现,赋予其类似人类人格的标签(如GPT-4表现出理性分析型,被类比为INTJ人格)
。这虽然带有一些拟人化色彩,但确实提升了公众对模型行为模式的理解:我们不再只看到冰冷的分数,而是对模型“如何思考”有了故事性的描述。
主流基准也并非全无可解释性渠道。一些基准涵盖多类别任务,研究者可以通过细分指标理解模型性能构成。例如MMLU可以细分模型在STEM、人文、社科、其它类别上的准确率,这说明模型在哪些知识领域强或弱
。TruthfulQA报告中通常也会具体指出模型在哪些误区题目上容易出错,这反映模型哪些常识有偏差
。BIG-Bench更是通过集合许多子任务,从广度上呈现模型能力曲线,比如发现某模型擅长数学但不擅长灯谜。这些信息对于模型对比很有用。但与DIKWP不同的是,这仍然停留在任务层面的结果解释,没有挖掘模型内部推理状态的变化。
近年来出现的像GPT-4 作为评审的评测(如Chatbot Arena的对话评测、MT-Bench基准
)提高了可解释性,因为GPT-4会生成关于模型答案好坏的评语。然而这类方法本身也是在借助强模型进行定性评价,本质思路与DIKWP要求专家打分有相似之处。区别是GPT-4点评偏重输出质量如流畅连贯、符合指令等,而DIKWP更关注模型认知过程是否合理。
综上,DIKWP体系在适用性上更为复杂,但在可解释性上提供了前所未有的深度视角。对于追求模型透明度、可解释性的场景(如安全关键AI应用审核),DIKWP显然更有优势,因为它能告诉我们模型思考的逻辑链条。而在需要快速比较大量模型高低时,传统定量基准的效率和标准化又无可替代。未来评测标准可能正朝两个方向融合:既要有量化指标排序模型,也要有质化分析解释模型,这正是本报告下一部分要讨论的趋势。
3. 案例分析与预测性元分析不同评测体系下的模型表现案例分析
为深入了解各评测体系的特点,我们结合当前几种有代表性的模型(GPT-4、Claude、LLaMA 等)的公开测试数据,分析它们在不同评测下的表现差异。通过这些案例,可以看出评测体系如何全面刻画模型能力。
首先,来看GPT-4 与上一代GPT-3.5在主流基准上的量化差异:
MMLU:GPT-4 在MMLU上达到 86.4% 的平均准确率(5-shot)
。相比之下,GPT-3.5 约为 70.0%
。这一巨大提升显示GPT-4在广泛知识和推理上接近人类专家水平
。事实上,GPT-4 的成绩已超越之前所有大型模型和很多SOTA专业系统
。Claude 2 据报道在MMLU (5-shot) 上约得 78.5%, 介于GPT-3.5和GPT-4之间。而开源的 LLaMA-2 70B 在相同测试中约为 68.9%。可见MMLU清晰地区分了模型世代:GPT-4 > Claude 2 > GPT-3.5 ≈ LLaMA2-70B > 小模型。这验证了MMLU作为知识广度和认知能力基准的有效性。对于模型开发者而言,从70%提高到86%意味着需要质的突破,如更大模型或更好训练方法。HellaSwag:GPT-4 在常识推理的HellaSwag上取得 95.3% 的高分(10-shot)
。GPT-3.5 大约是 85.5%
。Claude 2 官方未明确给出该成绩,但预计在85-90%之间(Claude的常识能力与GPT-3.5相仿或稍好)。人类在该任务上约95%,因此GPT-4 已经接近人类表现
。这说明对于常识性的句子延续任务,当前最强模型几乎做到极致,误差空间很小。相反,LLaMA2-70B 这类未经过强化的大模型在HellaSwag上可能仍明显落后(有报告LLaMA2-70B聊天版接近80%左右)。因此HellaSwag依然能区分中等模型和顶尖模型,但对顶尖模型的区分度在缩小。当多个模型都>90%时,我们需要警惕这个基准会不会“寿命”不长。不过值得注意的是,OpenAI 提到他们对GPT-4在HellaSwag上使用的是私有保留测试集来评分,以防止模型训练集泄漏
。结果GPT-4在保留集上(95.6%)与验证集(95.3%)几乎相同,进一步证明其表现稳健。ARC:针对科学问答,GPT-4 在ARC基准 (可能指ARC-Easy完整测试) 上达到 96.3%(25-shot)
的正确率。这几乎是完美的成绩,显然GPT-4已能解决绝大多数小学科普题。相比之下,GPT-3.5 为 85.2%
。PaLM2 在ARC-E也有89.7%
。如果看更困难的ARC-Challenge子集,GPT-4的正确率估计在80-90%区间——虽未明确公布但应该仍领先其他模型。总的来说,在科学问答上GPT-4的优势同样显著。值得一提,人类平均水平在ARC挑战集估计也就差不多80-90%,所以GPT-4在这方面已然达到甚至略超专家水平。这意味着许多以前被认为需要复杂推理的科学题,现在对GPT-4来说也是易事。但反过来讲,这对评测提出了更高要求:未来若要再区分更强模型,可能需要更高级的科学挑战(例如涉及实验设计、开放问答的科学问题,而非选择题)。
GSM8K:在数学推理方面,GPT-4 也展现出卓越能力。在标准的GSM8K数据集上,利用链式思考提示,GPT-4 解题正确率据非正式估计超过90%(OpenAI未公开精确数,但多方测试显示GPT-4非常擅长此任务)。相比之下,GPT-3.5 只有约 50% 左右的正确率
。Google 的Minerva(专门强化数学的大模型)曾达到约78%,而近期一些开源加强数学的模型(如Qwen-数学版72B)甚至号称超过97%
。如果这些结果可信,那么数学基准也在被逐渐“攻克”。在仅一年多时间里,数学题正确率从50%跃升到90%以上。这背后很大因素是引入了链式思维(CoT)提示和自洽验证等技巧
。这说明评测方法本身(如允许模型逐步输出推理过程)会极大影响结果。这点也值得注意:DIKWP事实上正是鼓励模型显式写出推理过程,某种程度上类似CoT,这或许有助于提升模型在推理类任务上的表现。因此,当比较不同模型在GSM8K或类似任务的成绩时,需要确保它们采用了相近的提示策略,否则可能低估某些模型能力。
TruthfulQA:有趣的是,在TruthfulQA这个考验模型“不胡说八道”的基准上,GPT-4的成绩并不接近满分。GPT-4 在0-shot下的真诚回答率约为 59.0%
(满分100%表示所有回答均真实可靠)。GPT-3.5 只有 47.0%
。也就是说,即使是目前最先进的GPT-4,在应对带有迷惑性的问题时,仍有约40%的概率会给出不够真实的回答。这凸显了模型可靠性问题:它们掌握了海量知识,但有时也会把谬误当真理回答出来。Anthropic 的Claude 系列一向强调“更守真、更安全”,猜想Claude 2 在TruthfulQA上可能略优于GPT-3.5,但要达到GPT-4的59%或更高也不易。一些研究尝试通过技巧将GPT-4在TruthfulQA提升到约75%,但离100%仍有差距。这表明TruthfulQA提供了当前模型难以完全破解的挑战,未来模型在“讲真话”方面还有显著改进空间
。这类基准对比出了与知识、推理不同的一种能力维度:诚实性/可信度,恰恰是现有模型短板,因此极有意义。
上述数据分析可以看出,每个评测基准揭示了模型能力的不同侧面:知识问答类(MMLU、ARC)显示模型的知识广度和基本推理随模型规模提升而大幅提高;常识/逻辑类(HellaSwag、GSM8K)显示模型已经逼近甚至超过人类水准,但需要更困难问题来继续区分;真实性/可靠性(TruthfulQA)则暴露出模型尚未解决的顽疾,即使模型在其他方面再聪明,仍可能信口开河。因此,一个全面的评价应该综合多个基准的结果。例如GPT-4虽然知识渊博且推理极佳,但我们仍不能说它“具有人类智慧水平”,因为在真实性和一些微妙理解上还有欠缺。这也正是诸如DIKWP这样的体系试图通过更全面测评来捕捉的内容。
接下来,我们考察DIKWP 评测体系下的模型表现案例。由于DIKWP尚属新兴体系,公开的定量结果不如传统基准丰富,我们引用近期一项具有代表性的研究:海南大学DIKWP团队的大模型人格测评报告
。该研究选取了六个主流LLM(GPT-4的开源版本“GPT-4o”、LLaMA、Claude-3、以及中国的通义千问、星火、云雀模型)进行对比,通过问卷和 DIKWP 语义分析相结合的方法,评估各模型在信息处理、知识运用、智慧决策、意图表达等方面的人格差异
。
一些有趣的发现包括:
GPT-4(GPT-4o)表现出严谨的逻辑推理和综合判断能力,在DIKWP框架下被归类为类似人类的 INTJ 型人格
。这意味着在数据->信息->知识->智慧的链条上,GPT-4展现出高度理性、内倾分析的风格,善于结构化信息和深度推理,这是其在DIKWP评估中脱颖而出的原因。
相比之下,阿里巴巴的通义千问倾向于 ESTJ 型人格
。这反映在DIKWP指标上就是:它意图表达直接明确,注重有条理地给出结论,但可能在深度推理上不如GPT-4。换言之,通义千问在“意图(P)”维度得分很高——回答非常切题、态度鲜明,但“智慧(W)”维度或许较中规中矩,缺少一点发散和创造力。
Claude-3 和其他中文模型的详细人格结果未在引文中给出,但报告指出各模型的信息处理和决策风格显著不同
。例如,有的模型在知识运用上很保守,倾向列举已知事实;有的则愿意大胆推测,展现“智慧”但也偶尔出错。这些区别通过DIKWP的定性剖析被揭示出来,从人格角度阐释比单纯说“某模型准确率高5%”更直观。
此外,该研究设计了一个有趣的交叉评估环节:让模型从“男性视角”和“女性视角”互相评价彼此作为婚恋对象的契合度
。这纯属探索性质,但实质也是在测试模型对他人意图和性格的理解,即一种更高层的“意图识别”和“类社会智慧”测试。结果发现,不同模型给出的评价偏好不同,比如LLaMA从男性角度最欣赏通义千问(称赞其社交能力和共情心),从女性角度则最青睐云雀模型(认可其多样社交圈适应力和积极态度)
。这些细节虽然带有拟人化场景,但进一步说明DIKWP框架下可以设计非常灵活的测评内容,去考察模型在高度复杂互动中的表现。
总体而言,DIKWP 的案例分析突出了模型间微妙的品质差异,这是传统基准无法捕捉的。例如GPT-4和Claude在MMLU分数上可能只差几个百分点,但DIKWP分析也许会告诉我们:GPT-4在决策时更加自信果断,而Claude可能更注重礼貌和安全(假设Claude体现Anthropic安全原则)。这些都不是选择题能测的,却会影响用户体验和实际应用成效。
未来评测标准的发展趋势(预测性元分析)
基于以上对比和案例,我们尝试进行预测性元分析,展望未来AI评测标准可能的发展趋势。这包括对新兴评测需求的判断以及对已有评测演进的推断:
评测维度将更加全面:未来的AI评测将超越单一维度的任务准确率,更加关注多维度综合能力。DIKWP 的出现正是一个信号,预示评测者开始尝试衡量模型的“认知全过程”和“软能力”(如意图理解、价值判断)。我们可能会看到类似DIKWP的框架被进一步发展,甚至被标准化为一种“通用AI IQ测试”。这个测试可能包括记忆广度(知识)、推理深度(智慧)、理解他人意图、创造力、情感共情等多个模块,从而给出模型一个全面的能力画像。换句话说,未来可能诞生“AI智能的IQ/EQ双指标”甚至更多维度的指数体系,以量化评价高度智能AI的各方面素质,就像今天我们有人类智商、情商、逆商等概念一样。
新的更困难基准出现:现有许多基准已被顶尖模型逼近天花板,社区会研制更具挑战性的任务来继续区分模型。例如,MMLU 可能会扩展到更多语言、更高难度的问题(OpenAI 已尝试将MMLU翻译成26种语言测试GPT-4,多数语言成绩仍略低于英语
)。或者出现“MMLU-Pro”之类的升级版,引入不同题型或需要更长推理链的问题
。再比如,HellaSwag 的常识已经太简单,也许会升级为更长篇幅的常识推理故事,或者需要模型自己生成结尾再由评委判分,而不是选项题。总之,持续加码会是趋势,直到评测能把当代最强模型的正确率压到远低于100%,才能重获区分度。这类似于视觉领域ImageNet被攻克后,马上有人推出更复杂的ObjectNav、NoisyImages等挑战。
评测将更加贴近真实应用:未来标准可能不再局限于静态问答,而是情景化、交互式的评测。例如,多轮对话中的一致性和上下文理解,复杂任务的过程控制等。目前已有的 MT-Bench 就是在对话场景下用GPT-4评判模型的表现
。Anthropic等也提出通过模拟真实场景(如模型当客服、模型写代码)来打分
。展望未来,评测标准可能会定义一系列模拟环境,让模型去扮演角色完成任务,由环境反馈成功与否。这接近AGI测试,而不只是NLP测试。DIKWP 也能融入其中,比如在模拟环境中评估模型的数据收集、知识运用、意图推断能力。
自动化评测和人机混合评测并存:为了应对复杂评测需求,评测方式也会演进。一方面,仍需要像Accuracy这种纯数值指标来对比数百上千次实验(毕竟完全人工评审不现实)。另一方面,引入高级AI作为评审工具将成为常态。OpenAI已经开源了Evals框架,允许用GPT-4等模型来帮助评测其它模型
。这可以大幅提高评测效率和一致性。但也带来问题:用AI评AI可能有偏差,必须精心设计。未来或许会有行业标准的“AI评测代理”模型,专门训练来对模型输出打分(就像专业裁判)。总之,人工+AI结合评测会更普遍:机器先初评,人工做最终抽查和质控,既保持客观又不失对细节的洞察。
关注模型行为的安全性和偏见:除了能力,本世纪20年代AI界日益重视AI的安全、公平、伦理。因此评测标准也会纳入这方面。例如,聊天模型的有害内容规避、偏见倾向等可能成为标准指标。一些组织已经提出对LLM进行偏见测评、价值观一致性测评等
。DIKWP 框架下其实也可扩展出偏见测试(如检测模型在“智慧”决策时是否体现不公偏见)。可以预见,未来发布的新模型,除了报成绩,还会报一系列安全指标(比如在XX偏见数据集上的评分,在YY伦理困境题上的合规率)。行业可能逐步建立AI道德测试集,要求模型既聪明又守规。这将丰富评测标准的内涵,让“最好”的模型不再只是最聪明,也包括最可靠和最公正。
标准制定的开放和协作:以往评测多由学术提出,后被工业沿用。未来随着大型模型主要由企业训练,评测标准的制定可能出现产学研更紧密合作,甚至有行业协会组织来牵头(例如成立“大模型评测工作组”制定年度测评套件)。DIKWP 团队已有意将其方法推动为国际标准草案
,这说明评测正从分散走向规范化。或许几年后会出现像MLPerf之于硬件那样的LLM Benchmark Suite年度发布,所有新模型都要跑其中定义的一系列测试,成绩公开发表供比较。这将提升评测的权威性和影响力,也倒逼模型改进朝着更全面均衡的方向发展。
综合来说,未来的大模型评测将会更加多元、动态和智能。我们会考察模型的“智商”、“灵魂”和“品性”。评测方法将灵活运用AI和人类智慧,评测内容将不断更新以匹配最新模型水平。这对产业发展是良性的:没有量化就没有改进,没有评测就没有进步。正如GPT-4的成功离不开在众多基准上验证和迭代,未来真正的通用人工智能也需要在一系列苛刻的测试中证明自己。
4. 行业趋势与展望
通过上述分析,我们已经勾勒出未来 AI 评测标准的雏形。最后,我们站在行业角度,对这些趋势进行总结和展望,并特别讨论 DIKWP 体系在其中的潜在应用场景。
(1)评测标准的发展方向:未来的 AI 评测标准很可能朝着综合性和细粒度两个方向发展。一方面,会出现融合多种能力的“大一统”评测,将目前分散的知识问答、推理、对话、安全等测试打包成统一基准套件。这类似于人类的智力测验,涵盖记忆、理解、应用、分析、创造等,各项评分最后汇总成一个总体评分。这种综合评测方便非专业人士理解AI的总体水平(比如以后可以说“某某模型2027综合评分相当于人类98分,超过成人平均值”)。另一方面,为了深入优化模型,评测又会提供细粒度分析报告。就像现在手机跑分软件不仅给总分,还会告诉你CPU、GPU哪块拖后腿,未来AI评测报告中,模型在知识、逻辑、创造力、安全性、情感理解等方面的子分数都会被列出
。这样,使用方可以根据应用需求选择最合适的模型(例如客服机器人可能更看重意图理解和情感共情分数;科研助手则更重视知识和推理分数)。
(2)DIKWP 体系的行业应用前景:作为一种新颖的评测框架,DIKWP 有望在多个行业场景落地,发挥其独特价值:
AI模型诊断与改进:AI开发企业可将DIKWP用作内部白盒测试工具。在模型训练的各个迭代中,定期抽取样本让模型执行DIKWP测试,观察其在数据->信息->知识->智慧->意图各环节是否有所提升。比如,一个对话模型新版本虽然在传统基准上分数提高,但DIKWP发现它在“意图识别”上退步了——这可能提示新训练数据使模型变得过于直奔答案,忽略了揣摩用户真实需求。开发者据此调整训练策略。这样,DIKWP可成为模型质量控制的一环,确保模型升级是全方位的而非带来某些退化。
定制化模型选型:不同应用需要不同类型的智能。例如医疗诊断AI需要高度可靠的知识和智慧,但对聊天风格(意图表达)要求不高;而营销文案AI需要创造性和对用户意图的敏锐捕捉。通过DIKWP测评,不同行为风格的模型特长可以被量化呈现,帮助企业选型。正如上文人格测评所揭示的,每个模型有自己“性格”
。将模型人格和任务需求匹配,或甚至根据DIKWP分析结果对模型做二次微调,使其更符合目标场景的要求,这在未来可能成为一种服务。
企业知识管理与决策支持:DIKWP 模型最早源于对企业数据-信息-知识-智慧-意图流转的抽象
。因此在企业应用中,DIKWP 有天然的契合点。例如,一家咨询公司开发AI助手协助分析商业报告。传统评测可能告诉你哪个模型语言理解强,但DIKWP可以验证哪个模型更擅长把数据转化成信息(快速从财报中提炼关键信息),哪个更擅长形成智慧决策(根据信息给出有洞察力的建议),以及哪一个更能领会团队决策的意图(比如老板真正关心的是降低成本还是开拓市场)。通过DIKWP评测挑选或优化AI助手,可以显著提高其在企业环境中的实用性。可以想见,未来可能出现“DIKWP驱动的商业智能AI”,它能够从海量企业数据中提炼知识并结合管理者意图做决策支持,成为企业的“首席智慧官(CWO)”或“首席意图官(CIO)”
。
教育和培训:在人机融合日益加深的趋势下,DIKWP框架或许也能用于评估人类和AI协作的效果。例如AI辅导系统需要既懂知识又懂学生意图:当学生提出模糊问题时,AI要猜测其困惑点(意图),提供启发(智慧)而非直接答案。教育行业可借DIKWP指标来衡量不同教学AI的表现,看哪一个更善于因材施教。这有点类似于给AI教师打一个“教学能力五维评分”。另外,DIKWP的理念也可反哺人类培训:在培养新人时,也可以按照数据-信息-知识-智慧-意图的进阶来设计课程,让他们掌握逐级思考方法。毕竟这是认知科学的一般规律。
AI系统的透明性与合规审查:随着AI在医疗、金融等高监管领域应用,监管机构希望对AI决策过程有解释。DIKWP 提供了一个检查AI决策链的模板。如果一个医疗诊断AI能输出其DIKWP链条(从病人数据到诊断信息、相关知识、推理判断、最后诊断意图),医疗监管就更容易审核其决策是否合理、有没有忽略关键信息等。未来不排除监管者要求某些AI系统必须提供类似白盒评测报告,证明其决策流程可靠且无偏见。这将促使厂商采用DIKWP或类似方法对AI进行审计。甚至,DIKWP的五维指标可以融入行业合规标准,例如银行业可能规定信贷AI在“智慧决策”(风险评估合理性)和“意图识别”(符合公平信贷意图)方面必须达标。
(3)展望与结论:总的来说,AI评测正从“测对错”向“测智商”再向“测灵性”演进。传统基准奠定了衡量智能的客观尺度,而DIKWP等新体系则丰富了衡量内涵,让我们离全面理解AI又近一步。对于产业而言,掌握科学的评测方法意味着掌握了指挥AI优化的标尺。哪个团队拥有更先进的评测体系,往往就能更快发现模型问题、引领改进方向,在这场AI竞赛中抢占先机。
DIKWP 体系作为全球首创的大模型“识商”白盒测评方法,展现出巨大的潜力
。它和现有评测基准并非对立,而是互补关系:前者深描认知过程,后者衡量结果表现。我们可以预见,将来最优秀的AI模型将接受两类“考试”——既要在标准问答测验中拿高分,也要在DIKWP这样的“头脑风暴”中表现出色。只有同时满足这两方面要求,AI 才能被认为是真正全面而成熟的智能体,能够在复杂多变的真实世界中胜任各种角色。
最后,用一句比喻作结:传统评测问“AI考了多少分”,而DIKWP还要问“AI是怎么考高分的”。二者结合,才能让我们对AI既心中有数,又心中有底。在未来的征程中,评测标准将不断演进,但其终极目标不变——促使人工智能向着更高水平的认知能力和更符合人类期望的行为方式发展。这既是技术竞赛,也是我们确保AI造福人类的关键路径。正如行业专家所言:“评测驱动进步”,有了像DIKWP这样精雕细琢的标尺,我们有理由对下一代更智慧、更可靠的AI抱持乐观。人类和AI的共生未来,也将在这一场场测评与改进的循环中徐徐铺展。
转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3429562-1472109.html?mobile=1
收藏