段玉聪
[转载]大语言模型意识水平“识商”白盒DIKWP测评2025报告发布
2025-2-21 10:25
阅读:315
大语言模型意识水平“识商”白盒DIKWP测评2025报告发布

2025-02-19 14:11:14 来源: 科技日报

  

科技日报记者 王祝华

2月17日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会(DIKWP-SC)获悉,由该协会主导、全球10余个国家与地区的90多家知名机构和企业参与的《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告(100题版)》正式出炉。这份报告标志着大语言模型(LLM)的认知评估进入了一个全新的阶段。

此次测评报告的核心亮点在于其全球首创的意识水平测评体系。报告基于独创的DIKWP模型,从数据、信息、知识、智慧、意图等方面,构建了一个全链路评估体系。测试题全面覆盖大语言模型的感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大模块,对主流大语言模型的“意识水平”进行了系统化、量化的深度剖析。

海南大学计算机科学与技术学院教授段玉聪表示,该测评方式突破了传统仅侧重语义理解和推理的模式,能够全方位解析模型的认知与决策过程,为人工智能领域树立全新的标杆。无论是人工智能(AI)研究者、开发者还是业界决策者,都能从这份报告中获得极具参考价值的数据和洞察。

报告对当前主流的大语言模型进行了全面测评,包括Deepseek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。测评结果显示,各模型在不同模块的表现各有千秋。

在感知与信息处理部分,测评主要考察模型在处理原始数据、提取信息和保持语义一致性方面的表现。ChatGPT-4o和ChatGPT-o1在数据转换和格式处理方面表现出色,体现出它们在数据转换和格式处理方面的稳定性。ChatGPT-o3-mini、通义千问-2.5、ChatGPT-o3-mini-high、Kimi和Grok在信息抽取方面表现优异,能够准确提取关键信息,特别是在数据到信息转化路径上的表现尤为突出。Deepseek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持语义一致性方面表现较好。

知识构建与推理部分的测评聚焦模型将信息整合为知识的能力,以及基于这些知识进行逻辑推理的能力。这一部分的测试题目设计了多种场景,要求模型从给定信息中归纳出规律、推导出结论,并生成可应用的知识体系。结果显示,通义千问-2.5、ChatGLM-4 Plus和ChatGPT-4o在这一模块表现突出。

智慧应用与问题解决部分的测评,则考查模型在复杂情境下运用知识形成智慧决策的能力。这一部分的测试题目模拟了各种实际应用场景,要求模型根据已有的知识体系,制定出合理的解决方案。

意图识别与调整部分的测评重点考察了模型对用户意图的理解能力,以及根据意图调整输出的能力。结果显示,豆包和Gemini-2.0 Flash Thinking Experimental在意图识别方面表现较好,能够准确理解用户的问题并提供相关的回答。

测评团队对所测评的大语言模型给出得分排名。测评结果显示,各主流大语言模型在不同的认知能力模块中各有优势。ChatGPT-4o凭借其在所有模块中的优异表现,展现了其强大的综合能力,成为本次测评的佼佼者;ChatGPT-o1和Kimi在特定模块中的突出表现,也为其在特定应用场景中的应用提供了有力支持;通义千问-2.5在知识构建与推理方面的优异表现,使其在知识密集型任务中具有明显优势。

段玉聪表示,未来,随着技术的不断进步,大语言模型需要在多个方面进一步优化和提升。通过不断改进和创新,大语言模型将能够更好地服务于人类社会,推动人工智能技术向更高层次发展。

责任编辑:何沛苁

转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3429562-1474126.html?mobile=1

收藏

分享到:

当前推荐数:2
推荐人:
推荐到博客首页
网友评论0 条评论
没有更多评论啦!
确定删除指定的回复吗?
确定删除本博文吗?