段玉聪
DeepSeek意识水平白盒DIKWP测评及与主流模型对比分析(讲座回顾)
2025-2-13 20:17
阅读:784

DeepSeek意识水平白盒DIKWP测评及与主流模型对比分析(讲座回顾)

fc930ff43743e09681277a15a1ba4ca.jpg

尊敬的各位专家、同仁:

大家好!非常荣幸今天能与各位分享关于大语言模型测评的最新进展,特别是针对Deepseek模型的白盒测评成果。本报告旨在全面展示当前大语言模型领域的竞争态势,以及我们基于DIKWP体系开展的“识商”测评工作,力图为人工智能领域的技术发展和安全治理提供科学、透明的参考依据。

一、背景与意义

近年来,大语言模型技术飞速发展,正在以前所未有的方式改变人类社会的信息处理和决策机制。随着Deepseek等新兴模型的横空出世,全球大语言模型的竞争已经全面展开。我们不仅看到了技术层面的突破,也见证了开放共享理念在推动行业进步中的巨大作用。正因如此,我们必须构建一套透明、可解释、可信且负责任的测评体系,确保人工智能技术始终服务于人类共享的智慧与福祉。

国际人工智能DIKWP测评标准委员会(即白盒测评标准委员会)自成立以来,经过两年的不懈努力,陆续发布了多项基础性标准和测评报告。这些标准已被纳入中国人工智能学会发布的最新人工智能白皮书(2024年12月31日北京发布),并得到国内外近90家单位的支持和参与,涵盖十多个国家。自2023年1月5日以来,我们率先开展了全球领先的18项测评工作,涵盖了地域、文化、种族、年龄等多维度的偏见检测,其成果在学术界和工业界均获得了高度评价和广泛引用。

二、测评体系与方法

本次报告重点聚焦于Deepseek模型的白盒测试。我们采用了全新的DIKWP测评体系,该体系以 Data(数据)、Information(信息)、Knowledge(知识)、Wisdom(智慧)和 Purpose(意图)为核心维度,对大语言模型进行全方位、多层次的评估。DIKWP测评不仅关注传统测评中涵盖的认知、推理等基本能力,更特别强调模型在意图识别与自我调适方面的表现,这对于预防未来人工智能可能出现的不可控风险具有重要意义。

在具体测评过程中,我们构建了一套100题的题库,涵盖了以下几个关键方面:

  1. 感知与信息处理:测评模型在从海量数据中提取有效信息、转换为可用知识方面的能力,重点考察数据到信息的转换效率(D→I)以及信息本身的组织与呈现(I→I)。

  2. 知识构建:考察模型在已有信息基础上如何构建系统化知识的能力,特别关注信息到知识(I→K)转换过程中的深度与广度。

  3. 智慧应用与问题解决:评估模型在实际场景中应用所学知识进行推理、决策和问题解决的能力,即知识到智慧(K→W)的转换效果。

  4. 意图识别与调整:这是DIKWP体系的核心创新点,旨在检测模型能否准确捕捉用户意图,以及在动态环境中自我调整以适应需求(P→W)。

相比传统的黑盒测评体系(如MMLU、HellaSwag、Big Bench、Truthful QA、GSM8K等),我们的白盒DIKWP体系在评测维度上更为全面且细致。传统测评体系虽覆盖了部分认知和推理能力,但在高级决策和意图识别方面存在明显不足,容易导致评测结果的偏差和局限性。DIKWP体系通过引入“意图”这一关键维度,不仅更符合人工智能治理的需求,同时也为模型的进一步优化提供了明确方向。

三、测评结果与讨论

本次测评中,我们对Deepseek V3、OpenAI GPT系列(O1及4O模型)以及其他四个国内外主流模型进行了全面对比。测评结果显示,各模型在不同维度上均有各自的优势与不足:

  • 感知与信息处理:在数据提取和信息组织方面,Deepseek V3展现了卓越的效率,特别适合于边缘计算和资源受限场景,其轻量化设计使得整体运行成本大幅降低。

  • 知识构建:虽然各模型在知识积累的基本能力上表现接近,但在从信息到知识的转化环节(I→K)上,不同模型之间的差距开始显现。Deepseek在这一环节上虽取得了良好成绩,但仍有进一步提升的空间。

  • 智慧应用与问题解决:各模型在实际应用中均表现出一定的推理和决策能力,但在智慧层面的表现上,部分模型在处理复杂问题时出现“坍塌”现象,即在突破认知上限后无法持续提升。Deepseek在这一部分的得分整体较高,但与某些顶级模型相比,在细分维度上仍存在优化潜力。

  • 意图识别与调整:意图识别是本次测评的核心指标之一。我们发现,不同模型在捕捉用户需求和进行自我调整方面存在显著差异。部分模型在这一维度的得分较低,提示其在实际应用中可能难以应对动态场景和复杂任务。而Deepseek在意图识别部分取得了相对稳定的表现,为未来的模型改进提供了有力数据支持。

此外,我们通过图表展示了各模型在不同维度上的得分情况。值得注意的是,在感知与知识构建部分,多个模型得分较为接近,但在智慧应用与意图识别部分,评分呈现出较大离散性。这一现象揭示了当前大语言模型在整体能力上虽不断突破,但在各项细分能力之间仍存在不平衡现象。我们认为,这种“坍塌”现象既反映了技术发展的瓶颈,也提示未来在模型优化过程中应更加注重多维度的均衡发展,而非单纯依赖算力堆砌。

四、展望与建议

基于本次测评结果,我们对大语言模型未来的发展提出如下展望和建议:

  1. 场景化定制:针对不同应用场景,应根据具体需求(如数据处理、知识构建、智慧应用或意图识别)选择最合适的模型。企业在部署时,可结合DIKWP测评指标进行定制化优化,确保模型在目标任务中发挥最佳性能。

  2. 多维度优化:模型研发团队应关注白盒测评中的各项指标,尤其是在意图识别与自我调适方面投入更多精力,推动模型在高级推理与动态决策方面取得突破,确保在自我进化过程中始终保持安全可控。

  3. 标准化与开放共享:我们将继续完善DIKWP测评体系,并推动其在国际范围内的标准化工作。通过开放共享测评数据和技术报告,促使全球人工智能领域形成更加透明、互信的合作环境,共同应对未来技术发展和监管挑战。

  4. 应对“坍塌”现象:在认知上限突破后,各模型往往出现性能“坍塌”。未来的研发应在追求高效能的同时,注重防范认知闭包现象,确保模型在面对复杂问题时仍能保持稳定输出。

五、总结

本次白盒DIKWP测评工作不仅为当前大语言模型的评估提供了全新的视角,也为行业发展和人工智能治理提供了坚实的技术支持。通过对Deepseek及其他主流模型的全面对比,我们揭示了各模型在感知、知识构建、智慧应用和意图识别等方面的优势与不足,指出了未来优化的关键方向。我们相信,借助透明、可解释和负责任的测评体系,全球人工智能技术将朝着更加均衡、高效和安全的方向不断迈进。

更多详细测评数据和技术报告请扫描右上角二维码或访问我们的官方网站与ResearchGate页面,获取中英文完整版报告。

感谢各位的关注与支持,期待与大家在未来的人工智能技术发展与标准化建设中继续深入交流与合作!

谢谢大家!

段玉聪简介:

段玉聪院士, 国际先进技术与工程院院士、美国国家人工智能科学院通讯院士、世界人工意识协会理事长、

中美硅谷发展促进会名誉会长、中欧科学家论坛共同主席、全球人工智能电子联盟名誉主席、

中国科协海智特聘专家、中国科技产业促进会科技战略专家咨询委员会副主任、中国工程院咨询研究专家、

世界人工意识大会主席、人工智能DIKWP国际测评标准委员会主任。

连续4年入选斯坦福顶尖科学家终身榜和年度榜,发表论文300余篇,已授权中国及国际发明专利110余项。

转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3429562-1472930.html?mobile=1

收藏

分享到:

当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?