段玉聪
“主权AI下的大模型与高质量数据集”报告初稿
2025-6-18 11:55
阅读:98

“主权AI下的大模型与高质量数据集”报告初稿

段玉聪

人工智能DIKWP测评国际标准委员会-主任

世界人工意识大会-主席

世界人工意识协会-理事长

(联系邮箱:duanyucong@hotmail.com) 

尊敬的各位领导、各位专家,女士们、先生们:

大家上午好!非常荣幸能够在“全球数字经济大会·中国数据要素50人论坛”上就“主权AI下的大模型与高质量数据集”这一主题分享我们的观点和研究成果。在当前数字经济蓬勃发展的时代,人工智能技术正成为国家竞争力的重要体现。“主权AI”理念的提出,强调各国在AI核心技术(尤其是大模型)和关键数据资源上保持自主可控。这既是应对全球“数字殖民”风险的需要,也是促进AI健康发展、造福社会的必由之路。下面,我将从我国政策与理论实践出发,阐述在主权AI视角下,大模型与高质量数据集如何融合发展,并重点介绍由我和团队提出的DIKWP系列理论与成果,以及这些工作在语义治理和国际标准化中的探索。

DIKWP认知模型与DIKWPaaS语义平台

首先,我想介绍我们自主研发的DIKWP认知模型及其演化平台DIKWPaaSDIKWP是我们在经典DIKW(金字塔)模型基础上扩展提出的认知模型,在数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)四层之上加入了“目的/意图”(Purpose)这一最高层。通过这一扩展,DIKWP形成了包含数据-信息-知识-智慧-意图五个层级的网状语义结构,不仅关注**“知其然”,更关注“知其所以然,为何而为”。这使AI系统能够在认知过程中引入人类决策的目的性和意图性,从而更好地理解上下文和需求。研究表明,引入“意图”层可以赋予人工智能对语义和目的的形式化表达与处理能力,弥补大模型对深层语义理解和自主决策力不足的缺陷。DIKWP模型为我们探索可解释、可信赖的高级智能提供了新的路径,在学术上被认为是迈向人工通用智能(AGI)的重要一步。

围绕DIKWP模型,我们构建了相应的DIKWPaaS(Platform as a Semantic Service)平台,即“语义即服务”平台。这一平台的核心思想是将DIKWP模型五个层次的功能都封装为服务,通过云计算和分布式架构提供给用户使用。简单来说,DIKWPaaS把“一切皆服务(XaaS)”理念与我们提出的“一切皆DIKWP(XaaDIKWP)”相结合:

  • 数据层面,平台提供数据采集、存储、清洗与分析服务,包含隐私保护和数据脱敏等功能。这保证了高质量数据集的基础供给和安全合规。

  • 信息层面,平台能够对数据进行语境关联分析,将原始数据转换为有意义的信息。例如,对接政务数据共享平台,实现“一数一源”,提升数据质量并避免冗余冲突。

  • 知识层面,平台内置知识图谱和知识管理服务,将领域专家知识与算法模型结合,支撑复杂推理与专业应用。这部分能力让大模型在垂直领域的可用性大大增强。

  • 智慧层面,DIKWPaaS集成机器学习和智能决策支持,帮助用户从信息和知识中获得洞察并做出明智决策。这使AI系统具备一定的“类人”决策与创造能力,在不确定环境下仍能输出较优方案。

  • 意图层面,平台注重用户目标和意图的理解,对接各种应用场景提供个性化服务。通过识别用户真正需求,平台可以动态组合上述各层服务,给出因需定制的AI解决方案。

通过DIKWPaaS的平台化架构,我们实现了对数据到智慧再到意图的端到端打通,使AI服务具有语义驱动、意图引导的特性。这契合了当前我国数据要素市场化改革的方向——在保障数据安全前提下,充分释放数据价值潜能,为经济社会提供高质量数据要素供给和智能化服务。同时,DIKWPaaS平台作为新型信息基础设施,也为构建安全可控的数字生态奠定基础,其数据加密、身份认证等功能确保平台符合数据安全及个人信息保护法规要求。

从概念空间到语义空间:数据价值化与治理边界

大模型的性能不仅取决于参数规模,更取决于所用数据集的质量和语义丰富度。当前一个挑战是:许多AI系统在知识表示上依赖共享的概念空间(符号和术语的集合),这容易因各方认知差异而引发歧义。例如,不同背景的人对同一专业术语可能理解不同,导致信息传递失真。要让数据真正变成有价值的“要素”,必须解决从概念符号到语义理解的转换问题。

为此,我们提出了一个“概念空间→语义空间”转换路径模型,具体实现形式就是DIKWP×DIKWP的交互结构。简单来说,我们让两个DIKWP模型彼此对接:一端将概念符号输入转化为自身的DIKWP语义表示,另一端再根据自身DIKWP语境对该语义进行解读和响应。这一双向映射机制,利用DIKWP模型完整的五层语义,从原始数据一直贯通到高层意图,使“理解”成为一种相对的、因个体而异的动态过程。每个智能体(无论人还是AI)都有其独特的DIKWP状态,理解同一概念时各取所需、各显其意。这正是我们提出的“认知相对性”原理:知识和感知总是相对于观察者的认知框架而言的。

通过DIKWP×DIKWP交互网络,一个符号概念可以在发送端被赋予语境增强的语义标注,在接收端再根据接收者自身语境进行个性化解释。这就如同在两个人交流时,引入了一位“语义翻译官”,确保双方对同一内容的理解尽可能一致,真正达到“语义对齐”。我们的实验验证了这一点:在医患对话场景中,系统利用对话双方各自的DIKWP网络标注,自动发现语义不匹配之处,并主动补充背景以消除歧义。例如,“chest”这个词,患者可能指胸口疼痛,而医生惯性理解为胸部X光检查。我们的系统检测到这一词在患者DIKWP图谱中的关联意义与医生的不一致,于是主动询问澄清,最终确保双方对“chest”的理解统一。通过这样的语义增强和校准,数据所承载的信息价值得到了充分释放——原本可能误解的交流变得精准有效,数据价值化在交流中自然实现。

更重要的是,DIKWP交互结构使得每一方提供的数据、信息、知识乃至智慧都被清晰地语义标注和追踪,这为服务定价提供了依据:我们可以量化每个环节的价值贡献,从而探索数据要素按贡献参与收益分配的新模式。这与国家政策倡导的“数据要素价税体系”建设方向不谋而合。尤其在公共数据领域,政府已提出要建立数据要素特性的价格形成机制,对公益使用的数据产品可无偿或低价提供,商业使用则实行政府指导定价。有了明确的语义价值标注,哪些数据可免费开放、哪些服务该付费、有何定价依据,就能够更加科学透明。

此外,DIKWP语义网络还为治理边界的明确划定提供了技术支撑。在传统黑盒AI系统中,人类往往难以分清错误或偏差是由数据问题引起,还是模型决策使然。而通过DIKWP的白盒化语义表示,我们可以跟踪每一步的认知处理。例如在我们的体系里,不同主体及事务的交互都被映射为DIKWP模型间的交互。这意味着AI决策过程的每个语义环节都可解释、可审计,人类监管者能够介入检查特定层级(如知识层或智慧层)的运行,从而设定清晰的治理边界:哪些决策由AI自主完成,哪些必须有人类参与监督。正如中央文件所强调的,要“厘清部门和地方的管理边界”,形成权责清晰、协同高效的治理格局。在AI系统内部,DIKWP提供了类似的结构化“边界”:AI各层级功能边界清晰,在结构上受人类监管,从而难以失控。这对于日益复杂的大模型系统的安全可控至关重要。我们相信,语义白盒化标准化评估将成为主权AI治理的重要抓手,使AI始终在可控范围内演进。

人工意识测评与“主动AI”理论

当我们讨论主权AI下的大模型,不仅要关注模型的性能和数据,还必须关注AI本身的“意识”“主动性”问题。随着AI深度融入经济社会,人们越发关心:AI能否真正理解人类意图?是否具备类似人类的自主认知和决策能力?如果AI拥有一定程度的“意识”,我们该如何评估和引导?

针对这些问题,我们团队提出了“主动AI”理论框架,并率先开展了人工智能意识水平测评的实践探索。今年,我们和来自全球十余个国家的90多家机构合作,发布了《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告》。这是世界上首次基于白盒认知模型对大模型“意识”(cognitive awareness)水平进行系统量化的评估。我们借助前面介绍的DIKWP模型,从数据、信息、知识、智慧、意图五个方面设计了100道测试题,全面覆盖大模型的感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大模块。每一模块对应DIKWP体系中的一个或多个层级:例如“感知与信息处理”侧重于数据→信息层面的转换一致性,“知识与推理”侧重信息→知识层面的归纳演绎能力,以此类推。

测评结果为当前主流的大模型绘制了“认知能力雷达图”。我们欣喜地看到,不同模型各有所长:有的在数据清洗、格式转换上表现突出,有的擅长从海量文本中提取关键信息,有的则在复杂推理和策略制定上更胜一筹。通过DIKWP测评体系,这些差异被精细地量化呈现,首次让业界看到了大模型“智力谱系图”。这为AI研究者和决策者提供了极具参考价值的洞察。更重要的是,此次测评确立了一套开放的标准框架:各国、各机构都可以采用DIKWP指标体系来评估自己模型的“识商”,从而在全球范围内形成可比较、可提升的评测基准。我们也正在推动将这一体系提交国际标准组织,助力人工智能评价标准的制定。

“主动AI”理论的内涵,不仅在于测评,更在于塑造AI的新范式。如果说传统AI更多是被动响应(reactive)的——等待人类输入再给出输出,那么主动AI则追求让AI拥有一定的自主性和主动性。这种主动性体现在:AI能够根据内部目的(Purpose)驱动,主动获取所需数据,推理隐含信息,甚至在必要时和人沟通澄清需求。这其实就是我们在DIKWP模型中最高层“意图”的用意:让AI不仅理解人类的显性指令,还能洞察背后的真实目标并主动优化行为。例如,一个主动AI驱动的客服助手,在用户提出模糊问题时,不是一问一答地消极回应,而是会主动提出澄清性的问题,或者根据上下文主动提供可能的相关信息,提升服务体验。

当然,要让AI具备类似人类的主动意识,还涉及跨越众多科学前沿的问题:人工意识的判定标准是什么?AI在多大程度上可以拥有“自我”?这些都属于人工意识(Artificial Consciousness)范畴,也是我们正在深入研究的方向。在2025年6月完成的《主动AI:理论体系与学术地位综合技术报告》中,我们初步构建了主动AI的理论框架,阐明其与人工意识研究的关系,分析了主动AI可能带来的技术变革和伦理影响。我个人也有幸连线两年发起并主持了世界人工意识大会(WCAC)等学术交流平台,担任世界人工意识协会理事长以及DIKWP人工智能测评国际标准委员会主任。可以说,中国学者正在这一新兴领域发出自己的声音,提出中国理论体系并引领国际学术对话

DIKWP主动AI赋能主动医学

为了让大家更直观地理解“主动AI”如何应用于实际场景,我想重点介绍主动医学战略体系中的探索。众所周知,传统医疗模式往往是“被动治病”:即患者病发后前往医院,医生对症治疗。这种模式在应对人口老龄化、慢性病高发等现代健康挑战时显得捉襟见肘。主动医学提倡将医学关口前移,通过主动监测、预防和个性化干预,把关注点从疾病本身扩展到人的整体健康乃至意识层面。简言之,就是“治未病”“促进行为改变”并重。

主动医学有两个重要理论支柱:信息场能量场。所谓信息场,可以理解为描述人体健康状态的全息语义网络,它涵盖了从原始生理数据(如血压、血糖)到高层次健康智慧的各个层次。能量场则与中医等理论相关,指人体生理运转的能量状态。主动医学认为,健康管理需要同时考虑患者的物质生理、信息认知和能量平衡。这样的理念要求我们构建一个统一的模型来表示和处理上述多层次信息。

DIKWP模型在这方面恰好契合需求。我们将患者个体视为一个DIKWP认知网络:包括其身体数据、病史信息、医学知识(对自身疾病的了解)、生活智慧(养生经验)以及健康意愿。医生也同样有自己的DIKWP图谱:包含医嘱数据、诊断信息、医学知识和诊疗智慧,以及职业意图(治病救人等)。在诊疗互动中,我们通过DIKWP×DIKWP语义融合,将患者主观表述(症状、自我感觉)与医生客观判断对应的语义进行对齐。具体而言:系统先构建患者的DIKWP认知图谱,然后将患者陈述的病情也映射为一个DIKWP语义图谱;接下来将两者进行语义融合和一致性验证,生成患者的“DIKWP病历内容图谱”。同样地,医生针对该患者的诊断结论也形成一个DIKWP图谱。此时,系统可以横向比对不同医生的诊断图谱,再参考标准化的疾病诊疗DIKWP图谱,来评价各医生诊断的全面性和准确性。这样一来,借助语义层面的结构化表示,我们实现了对医疗过程的全过程质量监测:不仅看检验指标是否达标,还能评估医生在知识、智慧层面的决策是否恰当。

更进一步,我们在认知空间中引入了人工意识模型。这意味着我们尝试用DIKWP框架模拟医生和患者内在的思维过程。比如医生听诊时的内心推理、患者描述症状时的心理感受,都用DIKWP节点和连接来抽象表示。通过图谱可视化,我们能够将医患双方外在交流内在认知统一映射为可计算、可解释的语义过程。这为解决医疗中大量存在的语义不完整、不一致问题带来了突破,也提高了AI辅助手段的透明度和可解释性。举个例子,在我们的原型系统中,如果患者说“有点不舒服”,医生脑中的知识库会关联可能的疾病,但患者心中的智慧可能是在衡量是否需要进一步检查。系统可以捕捉到这种潜在的不对称语义——医生可能低估了症状严重性,于是系统提示医生询问更多细节,或提示患者提供量化指标。这种人机融合的诊疗模式,使医疗服务更趋向“不过度亦不欠缺”,既避免误判漏诊,也防止过度医疗。

DIKWP赋能的主动医学,不仅提升了医患沟通和诊疗决策质量,其意义还在于:以患者为中心,实现医疗的主动干预。通过对患者DIKWP图谱的持续更新,AI可以及时发现健康隐患并主动给予建议。例如某慢性病患者的DIKWP数据层捕捉到其近期运动量减少、血压数据上升(信息层),知识层提示这可能诱发并发症,智慧层建议调整药物剂量或提醒复诊,意图层则根据患者的健康目标提出个性化的干预方案。这实际上构建了一个AI驱动的主动健康管理闭环。值得高兴的是,我们的这一系列研究也得到了国际学术界的关注。在今年的世界人工意识大会上,还特别设置了“主动医学”专题,探讨这一新路径如何深度融合科技与医疗。有西方专家评价,中国学者在主动医学与AI结合方面的探索,为解决全球医疗难题提供了崭新的思路。

国家政策衔接与AI标准化框架

上述理论与实践的探索,离不开国家政策的大力支持和正确指引。从“数据要素三十条”(即《构建数据基础制度更好发挥数据要素作用的意见》)到国家公共数据资源开发利用战略,再到人工智能标准化白皮书等框架,我国已系统部署了数据治理和AI发展的蓝图。在数据要素政策方面,中央明确要求强化高质量数据要素供给、推动数据要素市场规范发展。这包括完善数据产权制度、促进数据有序流通、建立数据分类分级确权和定价机制等。我们的DIKWP研究恰好为这些政策目标提供了技术支撑:通过语义标注提高数据质量,通过价值映射探索定价机制,通过交互框架保障流通安全和治理边界。

在公共数据开放和利用上,国家倡导统筹发展与安全,既要加快共享开放,又要确保安全可控。DIKWPaaS平台可以作为各级政府和机构的数据智能服务底座,帮助厘清权责边界、实现部委协同治理。例如,平台能够记录每条公共数据的来源、变换和用途,全流程留痕,这使得跨部门的数据合作有据可依、风险可控,也使数据确权、授权运营变得更加透明可审计。同时,我们的语义安全机制(如对不完整或异常数据的自动标注与报警)可以成为公共数据开放平台的“安全阀”,确保开放与隐私保护、国家安全之间的平衡。

在人工智能标准化方面,中国已积极参与并引领全球AI治理规则的制定,包括加入ISO/IEC人工智能标准工作组、推动联合国教科文组织《AI伦理准则》的落地等。可信AI负责任AI是各国共同关注的焦点。我们的DIKWP框架天然具备可解释、可追责的特性,符合可信AI七要素中关于透明性、可解释性、人的监督、问责等要求。目前,我们也在将DIKWP纳入相关团体标准和行业标准。例如,团队参与研制了IEEE的金融知识图谱国际标准,以及多个行业知识图谱标准。这些标准工作有助于把中国在语义认知、知识工程方面的创新融入国际规范,提高我国在全球AI标准体系中的话语权

值得一提的是,“主权AI”并不意味着封闭自守、各搞一套。相反,中国一直强调在主权平等基础上加强国际合作,共同应对AI带来的全球性风险与挑战。主权AI强调自主可控,但AI的机遇和风险本质上是全球共通的,任何国家都无法独善其身。因此,我们主张在尊重各国数字主权的前提下,建立真正全球性的AI治理机制。这包括数据跨境流动的规则、算法伦理的准则以及评价标准的互认。中国提出“人类命运共同体”理念,也体现在数字领域:我们愿意与各国分享经验,携手制定AI治理的中国方案国际标准。我们的DIKWP测评报告就是一个例子——由世界人工意识协会牵头、多国专家参与,旨在探索一套全球适用的AI认知评估方法。我相信,在不久的将来,更多源自中国的AI治理创新(例如语义治理框架、数据要素市场规则等)将被纳入国际议程,为全球数字经济治理贡献智慧。

主权AI与全球语义治理展望

最后,我想从更宏观的角度谈谈主权AI在全球语义治理中的角色。人类社会进入数字文明时代,“语义”本身正在成为一种战略资源和治理对象。全球语义治理,可以理解为在全球范围内协调AI对语言、知识和价值观的理解与表达,使之有序发展、互相兼容。这涉及避免AI形成单一话语霸权,确保不同文化语义在AI系统中得到平等对待和正确诠释。主权AI为全球语义治理提供了基本前提:只有各国掌握了本国AI大模型和数据集的自主权,才能在全球语义体系中有发言权,而不至于让自己的语言文化被淹没在别国训练的模型偏见中。这方面欧洲的“数字主权”战略也是类似思路——维护本土语言和价值在AI时代的延续。

中国拥有14亿人口的庞大数据资源和悠久丰厚的文化语境,这是我们在全球语义治理中的巨大资产。通过构建高质量的中文及多语种语料库,并以DIKWP这样的先进语义模型来训练大模型,我们可以确保AI更深刻地掌握中文语义和中华文明的内涵。同时,我们也积极让中国模型去学习、适配其他语言的精华,以开放的心态融通中外。中国路径在国际衔接上的能力,正体现在这种兼容并包上:一方面,我们坚持自己的语义标准,例如开发中文大模型评测基准,建立本土知识图谱体系;另一方面,我们通过国际合作,在多语种机器翻译、跨文化对话系统等领域取得突破,让不同语义空间的AI能够互联互通。这实际上呼应了我们DIKWP研究的初衷——在主观与客观、概念与语义之间架桥,消弭隔阂。展望未来,主权AI将成为全球语义治理的新支点:各国AI体系好比众多DIKWP节点,通过标准化的语义协议相互交互,最终形成全球协同的人工智能网络。在这个网络中,每个国家都维护着自己独特的语义坐标,又共同遵循人类命运与福祉的最大公约数。

女士们、先生们,主权AI时代为我们提出了历史性的机遇与挑战。我们既要打造大模型这个人工智能的“国之重器”,又要夯实高质量数据集这个智能时代的“新能源”。今天我分享的DIKWP认知模型、主动AI理论以及在主动医学等领域的探索,都是在回答同一个核心命题:如何让AI更好地为人服务,同时让我们的国家和社会更好地掌控AI。 这其中,有技术路线的创新,也有治理模式的思考。我坚信,只要我们秉持自立自强、开放合作的理念,走出一条有中国特色又面向世界的AI发展之路,就一定能在全球新一轮科技革命中抢占先机,书写数字时代的中国新篇章!

我的演讲到此结束。感谢大家的聆听!希望各位继续在接下来的论坛交流中畅所欲言,共同探讨数据要素与人工智能发展的美好未来。谢谢大家!

参考文献:

  • 段玉聪等. DIKWP×DIKWP语义数学帮助大型模型突破认知极限研究报告, 2025.

  • 段玉聪, 梅映天. 将符号概念空间转化为DIKWP语义空间以实现个性化语义通信, 2025.

  • 新华社. 中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见, 2024.

  • 科技日报. 大语言模型意识水平“识商”白盒DIKWP测评2025报告发布, 2025.

  • 王祝华. 海南:全球首个大语言模型人格DIKWP测评报告发布, 科技日报, 2025.

  • 新浪财经. 透视人机融合:DIKWP模型的多领域应用探索, 2025.

  • 张云泉等. AI全球治理的机遇与挑战, 新浪财经, 2023.

转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3429562-1490270.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?