|
段玉聪
引言人工智能(AI)的迅猛发展正引发全球科技格局深刻变革,各国纷纷探索符合自身战略利益和价值观的AI发展道路。“主权AI”概念由此应运而生:2024年世界政府峰会上,英伟达公司CEO黄仁勋提出每个国家都应拥有自主的AI基础设施,以保护本国文化和经济安全。我国学者段玉聪教授进一步指出,主权AI是指由国家自主开发、训练、测评和控制的综合性人工智能系统,具备高级学习、感知、推理和自我认知能力,能够在特定文化背景下自主决策交互,体现本国的文化传承和价值观。这一理念强调人工智能作为国家意志和价值观在数字领域的延伸,应服务于国家利益,符合本国价值体系和安全要求。在全球数字主权竞争加剧的背景下,如何建设可信赖且符合本国价值的主权AI,已经成为维护国家安全、提升国际竞争力的关键课题。
与此同时,随着大模型等AI技术推动信息传播和知识生产日益算法化,一个新的前沿理念——语义主权(Semantic Sovereignty)逐渐引起关注。段玉聪教授率先提出语义主权,指一个国家或地区对其自身语言、文化、价值观及知识体系在全球数字环境中被准确、完整且公平表达的权利与能力。通俗来说,就是确保本国话语体系的意义不被外部算法偏见扭曲,实现对数字内容“含义层面”的自主控制。这一概念拓展了传统数字主权内涵,将“意义”提升到了主权高度,凸显语义层面的自主控制对于国际话语权竞争的重要性。在AI广泛参与舆论与认知的时代,语义主权关注的是AI输出结果背后的文化价值和知识语境,旨在防止外来价值观通过技术渗透本国信息空间,维护文化多样性和语义公平。
当前,我国正步入“数字中国”建设的关键时期。一方面,要发展主权AI以掌握核心技术和自主智能能力;另一方面,也要确保AI所处理和传播的内容符合我国语境和价值观。主权AI与语义主权的结合由此成为数字时代国家智能化发展的新路径。本报告在科技部、工信部相关报告基础上,深入分析主权AI与语义主权融合发展的理论框架、关键技术与战略意义,并就推进这一体系建设提出政策建议。报告由上海市人大代表冯煜(中医药领域)在段玉聪教授的合作支持下调研撰写,旨在为决策部门提供参考,为我国数字主权和智能治理战略建言献策。
主权AI的内涵与重要性主权AI是国家数字战略中的基础概念,强调人工智能技术的自主可控与价值对齐。正如前文所述,主权AI指国家主导开发、训练、部署并控制的综合性人工智能系统,具有高级智能能力,并能在本国特定文化背景下运行,体现本国伦理和价值观。换言之,主权AI不仅是尖端技术体系,更是国家意志的数字延伸和文化软实力的体现。在人工智能成为驱动经济社会变革核心引擎的时代,主权AI的重要性堪比工业革命时期的工业能力或冷战时期的核技术,对国家实力与安全意义重大。
主权AI对于我国的现实意义体现在多个方面:
· 科技自主与安全:依托自主可控的AI基础设施和核心技术,才能摆脱对外部供应链的过度依赖,保障关键领域AI应用安全可控。当前我国AI芯片、算力平台等仍存在“卡脖子”隐患,必须加快建设自主安全的AI基础设施,确保关键环节不受制于人。
· 文化价值传承:主权AI要求AI系统内嵌本国价值理念与伦理规范,避免AI在决策和交互中输出有悖国家主权或文化的不当内容。这对于有悠久文明传承的中国尤为重要——确保AI传承弘扬中华优秀文化,维护文化自信,而非被单一的西方语境所左右。
· 产业竞争与创新:在全球AI竞赛中,各国都将主权AI作为战略重点,以抢占未来产业制高点。对我国而言,构建主权AI体系有助于统筹国内AI研发力量,避免大模型研发“一哄而上”却同质化严重的问题,集中资源攻克底层创新瓶颈。通过主权AI建设,可带动形成从芯片、算法到应用的完整产业链,提升科技自主创新能力。
国家安全与治理:AI已经广泛应用于金融、安全、军事、舆论等敏感领域。如果核心AI技术受制于人或AI系统价值导向失控,可能带来重大安全风险。例如,大语言模型可被用于操纵舆论、发动“认知战”。构建主权AI,有助于提升AI应用中的风险管控能力,将AI更好地服务于维护国家安全和社会稳定。
目前我国在推进主权AI方面既具备优势也面临挑战。一方面,我国有庞大的数据资源和应用市场,为训练本土AI模型提供了肥沃土壤;政府高度重视数字经济和AI发展,政策支持力度大。另一方面,我们也面临算力供需失衡、核心算法受制、高端AI人才短缺等难题;特别是中文高质量语料匮乏,限制了中文大模型的训练效果。这提示我们:建设主权AI不仅要在硬件和算法上自主可控,还必须在内容层面掌握主动权,即实现语义主权。只有技术和语义两方面主权相辅相成,才能真正打造可靠、可控的国家AI体系。
语义主权的概念与理论基础语义主权聚焦于数字内容“意义层面”的主权控制,是数字主权概念在语言文化领域的延伸与深化。其核心涵义在于:一个国家应确保本国语言、文化、价值观和知识在全球数字空间中被正确而公平地表达,不被外来偏见所曲解或淹没。这一概念由段玉聪教授团队提出,其背景在于AI时代国际话语权竞争的新态势。
随着人工智能(特别是生成式AI和大模型)的普及,算法正在深刻影响信息传播和知识生产。语义鸿沟正日益成为全球数字治理的突出问题:目前互联网上主导性的信息语义多由英语和西方话语体系定义,其他语言文化的表达往往处于弱势。研究显示,全球科学知识主要以英语发表,ChatGPT等模型训练语料中文占比微乎其微。这种语料和语义不平等导致AI输出对非英语文化的偏见和误解屡见不鲜,侵蚀着各国的文化主权和话语自主。
在此背景下,语义主权理念应运而生。其理论基础可以从几个维度理解:
· 语言权利维度:语义主权体现了一种数字时代的语言人权,即各民族有权在网络空间使用母语,并确保其含义不被扭曲。这与联合国倡导的语言多样性保护一脉相承。
· 文化主权维度:语义主权强调对本国文化内容数字表达的控制权,防止算法放大外来文化偏见。比如,要避免AI模型输出中对本国历史文化的误读、贬损等现象,以守护文化安全。
数字主权维度:传统数字主权关注数据和基础设施主权,语义主权则进一步关注数据之上的语义层主导权。数据主权确保数据不出境或可控流动,但语义主权关注即使数据出了境,围绕这些数据的含义解释权仍应掌握在本国手中,不被外部平台任意诠释利用。
段玉聪教授指出,语义主权是全球数字治理的新前沿课题,它回答的是“在数字时代,谁有权解释和定义事物的意义”这一关键问题。传统国际传播中,我们常说要提高中国在国际舆论中的话语权。在AI驱动的信息时代,话语权的争夺很大程度体现在对语义的支配权上:谁的语义框架被算法采用,谁的价值观就通过技术传递给了全球用户。因而,语义主权建设是巩固我国国际话语权、打破西方话语垄断的必要举措。
简而言之,语义主权通过强调对数字内容意义的自主权,补足了数字主权的内涵,其原创性在于把“Meaning(意义)”提升到了主权高度。它要求在推进AI和数字化的同时,同步建设我们自己的语义体系和价值规范,让AI准确表达“中国意义”,从而在全球数字空间实现文化自信和公平对话。
主权AI与语义主权的融合框架主权AI和语义主权分别侧重技术主导权和内容语义主导权,两者在目标上高度契合,融合后形成了“主权AI语义体系”的理论框架。具体而言:
技术层面:主权AI要求国家掌控人工智能核心技术、基础设施及治理权,包括算法、算力、数据安全等,以确保AI发展自主可控。
语义层面:语义主权要求国家掌控人工智能所处理和产生的数据-信息-知识-智慧等内容背后的语义主导权,确保AI的认知和决策符合本国语境和价值导向。
两者相辅相成:技术主导权是语义主权落实的前提,没有自主AI技术就无法实现语义自主;反过来,语义主导权是技术主权的升华,没有掌控AI的语义输出,AI技术再先进也可能服务于他人。因此可以说,语义主权是主权AI之“根”,主权AI是语义主权之“果”——只有扎牢语义之根,才能结出可信可靠的主权AI之果。
在理论融合上,段玉聪教授团队引入了原创的DIKWP模型作为桥梁,将主权AI与语义主权贯通起来。DIKWP模型是在经典“数据-信息-知识-智慧(DIKW)”金字塔模型基础上扩展出的“五层认知模型”,增加了第五层“意图/目的”(Purpose/Intent)。五层分别为:数据 (Data) → 信息 (Information) → 知识 (Knowledge) → 智慧 (Wisdom) → 意图 (Purpose)。新增的意图层用于明确AI决策背后的目标、价值和语境,弥补传统DIKW模型中“为何使用这些信息”这一要素的缺失。通过引入意图层,DIKWP模型提供了一个更完整的语义框架来理解AI的认知过程:原始数据在特定目标引导下如何逐步转化为可执行的知识和决策智慧。
DIKWP模型对于主权AI-语义主权融合具有重要意义:
它让人类目的性融入AI认知模型,使AI系统能够在国家既定战略意图和价值观指引下演化出知识与智慧。借助意图层,国家的文化价值、政策目标可以成为AI内部处理的一部分,从而确保AI的发展方向始终不偏离国家利益。
它成为连接技术与语义的纽带:一方面国家通过DIKWP框架掌控AI各层级行为(从数据获取到意图设定)的测评与校准标准;另一方面也通过该模型将价值观要求渗透到AI从数据到决策的每一步处理中。这为“价值对齐的主权AI”提供了具体抓手。
段玉聪团队据此进一步构建了DIKWP人工智能评价体系,也称DIKWP白盒测评标准。传统上,对AI系统的评价多是“黑箱”方式,仅关注输入输出是否正确,而不了解内部机理。DIKWP评价体系则扩展五层框架,对AI模型在数据、信息、知识、智慧、意图各语义层面的行为和偏差进行全链路评估。通过对白盒解析AI内部认知过程,监测每一层的性能和偏见,这种方法突破了只看输出的局限,使AI系统的语义加工过程透明化、可审计。我国科研团队提出的DIKWP白盒测评标准,强调AI决策过程的语义可解释性、透明度和伦理一致性,被认为在语义标准和治理机制上具有前瞻性。这一工具为实现“可信赖且符合本国价值的主权AI”奠定了理论和技术基础。
总体而言,主权AI与语义主权的融合为数字时代实现国家智能主权提供了崭新范式:我们既要掌握AI核心技术,又要塑造AI依赖的语义体系,使AI真正服务于我国的文化传承和战略意图。这一理论创新在概念上回答了“数字时代如何实现国家主权”的命题,并通过DIKWP模型和语义测评体系等具体工具给出了实现路径。正如有观点指出的,语义主权为数字时代国际话语权竞争提供了新的解决思路,其原创贡献就在于将“意义”纳入主权范畴,使主权AI有了价值引领的灵魂。
语义主权:主权AI可信治理的核心实现主权AI的关键,不仅在于拥有强大的技术能力,还在于确保AI可信、可控地运行在国家价值轨道上。而语义主权正是主权AI可信治理体系的神经中枢,被视为保障AI可解释、可控、公平可靠的核心机制。通过建立语义透明、白盒测评、多层次偏见识别等一系列治理机制,语义主权确保AI从底层数据到高层意图的整个链路都处于国家监管之下,真正做到“让AI听得懂、管得了”。
以下,我们分几个方面阐述语义主权框架下的AI治理要点:
1. 语义透明与可解释性:语义主权要求AI系统的决策过程应基于清晰可追溯的语义推理链,而非不可理解的黑箱。也就是说,AI从获取数据、提取信息、构建知识、形成智慧决策直到执行意图,每一步的语义内容对人类(尤其监管者)都应是透明的。为实现这一点,可采用两类措施:一是引入知识图谱、本体论等语义建模技术,将AI内部的知识表示和推理逻辑显性化;二是运用DIKWP模型对AI处理的信息进行五层结构化表达,让每一步的含义和依据清晰呈现。通过语义透明,监管部门就有能力“看懂”AI的所知所思,及时发现其中不当之处,从而进行纠偏干预。中国的治理方案尤为强调AI决策的语义可解释性,例如要求重要AI系统的决策依据、知识来源、推理路径可审计、可追踪。在智慧治理实践中,如果AI根据某些规则(智慧层)做出了决策,那么这些规则和推理过程应该对审核者公开。这种语义层面的透明要求,成为建立公众和政府对AI信任的关键指标。
2. 白盒测评与全过程审计:传统AI测评侧重于输出结果的准确率等“黑盒”指标,无法揭示模型内部决策机制的合理性。语义主权倡导白盒测评,即打开AI“黑箱”,对其内部各层级行为进行审核评估。基于DIKWP五层框架的白盒测评体系可以对模型从数据层到意图层的表现进行细粒度诊断。例如:检查数据层有无训练数据偏差,信息层是否遗漏关键信息,知识层推理是否符合常识与逻辑,智慧层决策是否合理,意图层目标是否与预期一致。通过这一系列检查,AI模型的“认知过程”得以全面剖析,其内部弱点和偏见能够被准确定位。实践报道表明,这种DIKWP白盒评估方法可全方位解析大模型的认知与决策过程,被认为是提升AI输出可靠性的新途径。白盒测评的核心价值在于:让AI系统每一步语义处理都有据可查、可验证,大幅提升AI的可信度和可控性。当将白盒评估结果用于模型优化和监管时,可及时发现并纠正模型存在的有害倾向或错误,从而确保AI始终在安全、公平的轨道上演进。
3. 多层次语义偏见识别:AI模型在训练和应用过程中可能在不同层面引入偏见(bias),如数据收集偏误、算法偏好、目标函数不当等。语义主权治理的另一个关键,就是建立机制识别并消除AI各层级上的语义偏见。段玉聪教授团队的研究将AI系统的内在偏见分为五个层次,与DIKWP模型一一对应:
· 数据偏见:由于训练数据的不完整或样本分布不均衡导致的偏差。例如数据样本偏重某些群体或观点,会使模型对现实认知失准。这种数据层面的偏差如果不纠正,AI从一开始就站歪了脚跟。
· 信息偏见:在信息提取与过滤过程中产生的偏见。例如模型只关注片面的特征,或过滤掉了某些关键信息,导致对环境描述失真。
· 知识偏见:由于知识库不完整或推理规则局限造成的偏见。例如模型知识图谱存在空白,或推理机制有漏洞,导致结论片面或错误。
· 智慧偏差:在复杂决策中体现的偏差。例如AI缺乏全局观或长期视野,只做出短视决策,这是高层次智能不足的一种表现。
意图偏差:在目标设定和价值导向上出现的偏差。例如AI的目标函数设计不当,与人类期望的价值观不一致,导致其行为偏离初衷。
如果上述各层次偏见得不到识别调控,不仅会削弱AI系统的公平性和可靠性,更可能令其偏离主权AI所追求的国家利益和价值观目标,带来严重后果。因此,语义主权治理要求建立一套系统方法去发现并消除这些偏见。为此,段玉聪团队设计了DIKWP偏见测评体系:基于数据-信息-知识-智慧-意图五层模型,对AI模型进行全链路、多维度的偏见检测和评估。通过白盒测试、对抗测试等手段,该体系能够揭示模型在各层面的偏见根源,例如识别训练数据的不平衡、信息处理的不公、知识推理的漏洞,以及决策和意图选择上的倾向性错误。这种多层次偏见识别机制确保没有任何一个层级的偏见被忽视——即使模型最终输出表面良好,但内部某层潜藏偏差,也能被挖掘出来并引起警觉。多层次的偏见监测与纠偏赋予了AI系统自我审查和持续校正的能力,是主权AI保持长期可信的关键。
通过上述语义透明、白盒测评、偏见识别等机制的综合作用,语义主权在主权AI治理中确立了核心地位。它确保AI从底层数据到高层目标的全链路都处于“可解释、可控制、可纠偏”的状态,构筑了可信AI的基石。语义透明使AI决策对监管者和公众可理解,白盒测评使AI内部机理对开发者和审计者可检查,多层次偏见识别使AI的价值取向和公平性有保障。这些机制共同确保主权AI既具有技术可信度(输出可靠,无重大错误),又具备价值可信度(符合伦理和国家价值观)。特别是在政府治理、金融安全、工业控制等高风险领域,只有落实语义主权,才能真正让AI“听得懂政府的要求、管得住自身行为”,杜绝AI黑箱导致的不可控风险。可以说,语义主权就是主权AI治理体系的“神经中枢”——若失去了语义层面的掌控,AI行为可能偏离国家意志;而有了语义主权的保驾护航,AI才能成为国家可信赖的智能助手。因此,在制定未来AI治理政策和标准时,语义主权应被视为一条重要的指导原则和优先考虑的维度。
语义主权体系的关键技术路径落实语义主权,需要构建配套的技术体系作为支撑。围绕语义主权目标,段玉聪教授团队提出了两大核心技术支撑框架:“DIKWP×DIKWP”语义区块链 和 DIKWPaaS平台(语义主权平台即服务)。前者旨在将语义技术融入区块链,实现语义内容的可信存储与流通;后者旨在提供基于DIKWP模型的云端服务,将AI从数据到意图的处理过程模块化、服务化输出。这两项技术相辅相成,共同构筑语义主权的技术基石。下面分别介绍其原理和功能:
1. DIKWP×DIKWP 语义区块链框架:这是段玉聪团队在国际上率先提出的新型区块链架构,融合了DIKWP语义模型与区块链技术。其核心思想是:将区块链上存储的每一条数据内容划分为数据、信息、知识、智慧、意图五个层次进行结构化记录。传统区块链只记录交易数据(对机器来说是不可理解的比特序列),而语义区块链在此基础上为每条记录附加了丰富的语义元数据和上下文:不仅保存原始数据,还链接该数据的语境信息(信息层)、由数据提炼出的知识规则(知识层)、基于知识形成的洞见或决策建议(智慧层),以及此决策背后的目标意图(意图层)。通过这种方式,链上记录不再是晦涩难解的字节,而是带有意义标注的“语义账本”。这使得机器智能代理能够“读懂”区块链上的内容含义,而不仅是存取数据,实现真正的机器可理解的可信数据库。
该语义区块链框架带来了三大能力提升:
· 可追溯性:完整追踪原始数据如何逐步演化为信息、知识和智慧,每一级推理演进都留有链上记录。这意味着,可以审计任意决策的由来,增强了过程透明。
· 知识产权及权益管理:链上明确记录从数据到智慧各层内容的贡献者,可为不同层级的内容分配所有权和使用权。例如,原始数据提供者、知识提取者、智慧决策制定者都能通过代币激励获得相应权益。甚至可以引入“知识令牌(Knowledge Token)”将知识资产NFT化,方便知识内容的交易授权。
机器智能互操作:由于链上数据附带标准语义标注,机器代理可直接对其进行自动推理和高级查询,实现跨组织的智能互操作和语义驱动的智能合约执行。不同来源的数据在统一语义框架下可以互通互认,智能体能够读取链上知识并自主决策,把区块链变成名副其实的去中心化语义数据网络。
值得一提的是,“DIKWP×DIKWP”这一命名本身体现了框架的独特结构:在该系统中存在一个5×5的语义映射矩阵。一方面,每条链上记录具有D、I、K、W、P五层内容;另一方面,不同记录之间可以在每一层发生引用和关联,形成网状的语义连接。这意味着系统中潜在存在25种(5×5)跨记录的语义映射关系,对应各种语义转换过程(如数据生成信息、信息生成知识、知识生成智慧、智慧指引意图等)。这种“双重DIKWP”结构使得区块链既在垂直方向描绘单条内容从数据到意图的语义链路,又在水平方向连接不同内容在相同层级上的关联(如不同知识记录通过知识层链接到共享的本体约束,或不同意图记录关联到共同的目标)。可以将其理解为“语义维度与信任维度的融合”:DIKWP语义层级提供表达和推理能力,区块链的分布式信任机制确保各层内容不可篡改且来源可溯。两者交织,构成了一个既可信又懂语义的智能账本系统。
目前,DIKWP语义区块链仍处于前沿探索阶段,实现落地需考虑性能、治理和安全等因素。为此,可采用一些策略:如分层/边缘计算架构(在边缘节点先进行部分语义推理,减轻主链压力)、链下推理链上验证(复杂推理在链下完成,仅将结论和校验信息上链记录)以及多链分片设计(按DIKWP层级拆分子链以提升扩展性)等。同时引入内容质量治理机制,如在共识环节增加嵌入的逻辑一致性校验、社区评审和信誉评分,确保链上知识与智慧内容的可靠性;建立去中心化自治组织(DIKWP-DAO)监督高层内容的更新流程等,以防范恶意或错误知识带来的风险。在隐私安全上,对敏感语义内容进行加密存储,仅授权解密,防止语义关联导致的侧信道攻击等。通过以上技术架构和治理措施,DIKWP语义区块链有望逐步在实际场景中部署,成为主权AI时代支撑数据要素安全流通与语义治理的新型基础设施。
2. DIKWPaaS 平台(语义主权平台即服务):这是构建语义主权体系的另一关键技术抓手。DIKWPaaS(DIKWP as a Service)指将DIKWP模型各层功能模块化,作为通用云服务供用户按需调用。通俗地说,DIKWPaaS旨在把数据处理、信息分析、知识管理、智慧决策和意图控制等AI认知功能打包成标准服务接口,让不同行业的应用无需从零开始构建复杂的语义系统,就能便捷地获取这些能力。在语义主权架构中,DIKWPaaS充当“底座平台”,为各行各业实现语义主权提供通用技术支撑和工具集。
DIKWPaaS平台基于云原生架构设计,一般包含以下核心服务功能模块:
· 数据服务(DaaS):提供大数据接入、预处理和存储管理功能,将原始数据转化为结构化的信息。例如可对企业各业务系统数据进行汇聚清洗,供后续分析使用。
· 信息分析服务:对数据进行统计分析、特征提取和可视化,使数据转化为用户可理解的信息。比如帮助电商平台分析销售数据提炼出趋势和异常信息。
· 知识管理服务:提供知识图谱构建、规则引擎、推理机等,将信息进一步升华为知识和规则,支持复杂逻辑推理。例如结合行业知识库对分析结果做因果推理,找出问题根源。
· 智慧决策服务:基于知识和实时数据给出决策建议或自动决策。比如结合知识图谱和AI模型为企业供应链优化提供智能决策方案,或为政府城市管理提供预测预警。
意图管理与个性化服务:这是DIKWPaaS独有的高阶功能,旨在理解用户或组织的目标意图,并将其融入服务流程。平台可根据用户设定的目标,对数据分析和决策流程进行个性化调整,从而实现“按意图交付”。这保证平台在提供普适服务的同时,针对具体意图场景做差异化处理,符合不同用户的战略目的。
通过以上各层服务的组合,DIKWPaaS打通了“从数据到意图”的完整链路,成为一个全功能的语义处理工厂。对使用者而言,平台犹如一个智库+工具箱:提供智能分析和决策建议,又提供灵活的开发接口,可根据自身业务快速构建语义应用。
在技术实施上,建设DIKWPaaS平台需要统筹集成多方面资源。可采取的路径包括:首先在云环境中搭建基础平台,整合大数据处理框架、语义引擎、机器学习库等模块,利用微服务架构将数据、信息、知识、智慧、意图等功能组件松耦合地集成。充分利用已有各类XaaS服务(如数据即服务DaaS、机器学习即服务MLaaS等)融入DIKWPaaS,避免重复造轮子并方便企业迁移。部署时可分阶段逐步开放各层服务:初期先提供数据和信息层服务,逐步扩展到知识、智慧层,最后实现意图层服务,将价值观目标纳入闭环。此外,平台应提供友好的可视化界面和二次开发支持,让不具语义技术专长的行业用户也能方便使用。例如提供图形化的知识图谱构建工具、策略配置界面等,降低使用门槛。
DIKWPaaS平台的价值已在一些典型应用中得到体现:在零售领域,某企业接入平台后可汇聚销售、库存、用户行为等数据,平台自动分析提炼各地区各时段的销售趋势异常,进一步结合知识模块给出营销优化建议,帮助企业实现智能决策。在公共服务领域,某城市管理部门将交通流量、能源消耗、水污染等多源数据接入平台,平台将其转换为信息图表并基于知识模型提供城市治理优化方案,实现智慧城市的语义治理。这些案例表明,DIKWPaaS能够以服务形式将复杂的语义主权技术输出到各领域,帮助它们以较低成本实现数据价值挖掘和智能决策,同时确保决策过程符合法定的语义规范。
总而言之,DIKWPaaS平台是落实语义主权战略的重要技术载体。它为数据要素的深化利用和AI应用的智能升级提供了统一底座,体现了“平台即治理”的思想——通过一个统一的平台,将国家语义标准和治理规则嵌入各行业的AI应用之中。在推广DIKWPaaS过程中,还需注重标准化推进和产业生态培育(如制定行业知识库标准、开放API标准等),以便平台各组件能够互通兼容、广泛应用。可以预见,随着语义技术的成熟和应用深化,DIKWPaaS将有效降低各行业实现语义主权的门槛,加速语义主权在经济社会各领域的落地。
语义主权在重点领域的应用实践语义主权体系的建设,应服务于我国数字化转型和智能化治理的重大需求。不同领域可以根据自身特点,率先开展语义主权的应用实践,总结经验再推广。以下列举几个重点领域及其实施路径:
· 工业互联网与制造业:工业互联网连接海量异构设备和系统,存在数据语义标准不统一的问题,不同厂商设备的数据格式和含义各异,导致互联互通受限。通过语义主权框架,可制定工业数据语义标准和本体,将设备、传感器的数据按统一语义模型描述,确保机器与平台“说同一种语言”。例如,在流程制造领域引入DIKWP语义区块链,将工厂边缘节点采集的数据本地转换出知识,再上链共享,使各环节对关键工艺参数的理解一致透明。同时,在工业AI应用中,要求对重要决策过程进行白盒评估,审查AI控制决策的知识依据和意图是否符合安全规范。浙江、广东等工业互联网先行省市可试点搭建语义主权工业平台,在重点园区落实语义标准和白盒评估流程,形成可复制推广的经验。
· 数据要素流通与跨境数据管理:随着我国数据要素市场培育和对外数据交换的增加,如何在开放流通中维护数据的语义安全是一大挑战。语义主权要求在数据出境或共享前,对其语义内容进行“体检”和过滤。具体可在数据出口管控框架下,增加语义评估流程:评估拟出境数据集中是否包含敏感信息、存在对本国不利的偏见倾向,必要时进行脱敏或标注警示。同时,建设DIKWP语义数据交换平台,支持数据在不同主体之间按统一语义格式交换,并利用区块链记录每次数据语义处理的痕迹,实现可追溯和责任界定。特别是在即将封关运作的海南自由贸易港等区域,可以试验这样的语义数据平台:在保证“一线放开、二线管住”便利贸易的同时,通过语义主权技术手段管控数据和内容的流动,防范敏感语义外泄或曲解。2025年海南全岛将实施“境内关外”的特殊关税区政策,需要相应的数字化、智能化手段升级治理。通过语义主权赋能数字监管,海南自贸港可在深化对外开放的同时保障文化和制度安全,实现数字化与国际化的平衡。
· 政务治理与智慧城市:在政务应用中,越来越多部门引入AI辅助决策和公共服务。语义主权视角下,政府应对政务AI系统提出更高要求:首先,其决策过程必须留痕可查,重要决策所依据的数据、知识和规则应记录在案,必要时向公众说明。地方立法可规定重大行政决策若经AI辅助需进行公众公示解释,以增强透明度和公信力。其次,引导政务AI采用本地知识图谱和语义模型,避免照搬商业通用模型导致决策“不接地气”。再次,在智慧城市建设中,引入公众参与的语义监督模式:例如搭建市民反馈平台,鼓励公众举报AI服务中的歧义或偏见输出,由监管部门据此优化语义模型。一些新城新区(如雄安新区)可先行探索,在城市大脑中集成语义主权治理框架,让AI在城市管理中做到可解释、可监督,从而积累经验后全国推广。
· 金融与法律高风险领域:金融风控AI、司法辅助AI等涉及重大利益与公正,要求零偏差和强可控。语义主权要求这些领域采用审慎的语义治理机制。例如,央行或银保监会可建立AI风控模型的语义审查制度,确保其风控规则中没有地域、群体歧视等不公偏见;司法机关在使用AI辅助审判时,应使用专门训练的法律知识图谱,保证判决理由的语义链路清晰、公正。对于金融交易链路,可探索引入语义区块链,记录每笔智能合约判断背后的逻辑语义,以便事后追责和纠错。
· 医疗与中医药领域:医疗AI是语义主权的另一个重要应用场景。一方面,不同医学体系(中医、西医)由于概念体系差异,AI往往难以兼顾。在语义主权框架下,可以通过DIKWP模型将中医的阴阳五行、印度阿育吠陀的三Dosha、古希腊-阿拉伯医学的四体液说等不同医学理论纳入同一语义网络模型,实现跨体系的知识融合。段玉聪教授团队已开展探索,利用DIKWP模型构建中西医融合的知识图谱,对比不同医生诊断的DIKWP语义图谱,以评估诊断一致性和质量。这说明通过语义建模将专家经验形式化表达,可以让AI同时理解中医和西医语义,从而支撑“主动医学”等新型医疗模式的发展。另一方面,医疗领域要求AI决策高度可靠、公平。例如诊断AI不能对某些群体有隐含偏见。可针对医疗AI引入语义偏见检测流程,在训练阶段过滤可能带来不公的语料,在推理阶段监控AI关注的症状和知识是否全面,避免诊疗建议有失偏颇。此外,患者有权知晓AI诊疗决策的依据(这属于患者知情同意的一部分),因此要求医疗AI必须给出可解释的诊断路径,让医生和患者理解其判断依据。通过这些措施,保障医疗AI既发挥效率优势,又不偏离医学伦理与人文关怀。
文化传播与数字内容生产:在新闻传媒、文化内容生产等领域,大模型正被广泛应用于内容创作和翻译。但如果任由跨国平台提供的模型主导本地内容生成,可能造成文化表达上的不对称。语义主权呼唤发展本土的生成式AI,并对内容输出进行语义审查。比如,新闻写作AI应内置我国新闻价值导向,在敏感议题上遵循国内语义规范;影视内容AI翻译在处理具有文化色彩的对白时,要确保译文传递原作的精髓且符合我国观众的理解习惯,而不能机械地套用西方语境。监管机构可制定AI生成内容语义规范和行业准则,对严重背离主流价值的AI内容严肃处理,对正向优秀的文化输出给予扶持传播。通过占据内容生产领域的语义主导,我们才能在全球数字文化交流中掌握主动权。
总之,在不同应用领域推进语义主权实践,不是一刀切的,而应结合行业特点循序渐进。可以优先选择基础较好、需求迫切的领域和地区开展试点示范,在实践中完善技术方案与治理规则。通过“以点带面”,逐步将语义主权理念推广至各行各业,为数字中国建设提供坚实支撑。
中国推进语义主权的战略优势与潜在风险作为一个拥有14亿人口、悠久文明和完整产业体系的大国,中国在推进语义主权方面具备得天独厚的战略优势,但也面临一些潜在风险和挑战。
优势方面:
· 语言与文化资源优势:汉语是全球使用人数最多的语言,我国拥有丰富的文化典籍和多元的民族文化。这为构建中文语料库、知识图谱以及训练贴合本土文化的大模型提供了深厚土壤。例如,中医药、儒家典籍、传统文学等都是独特的知识宝库。如果能将其结构化纳入AI体系,我国AI在这些领域的智能水平将独步全球。
· 数据规模和应用场景优势:中国的互联网和移动应用高度发达,海量用户行为数据和多样的应用场景为AI模型的训练和验证提供了良好环境。这意味我们有条件建立大规模多领域的中文语料库以及多模态语义数据集,支撑语义主权所需的模型训练。同时,智慧城市、电子政务等场景涌现,为语义主权技术提供了现实练兵场,可以边应用边优化。
· 制度优势和集中攻关能力:我国政府在重大科技工程组织上具有集中力量办大事的体制优势。推进语义主权体系建设,需要跨学科、跨部门协同和长期投入。这正是我国所擅长的:可以通过国家规划、重点研发计划、行业标准制定等方式协调各方。同时,我们已有数字中国战略、人工智能规划等顶层设计作为基础,只需将语义主权纳入其中,就可形成全国一盘棋的推进格局。
· 先发研究优势:段玉聪教授领衔的国内团队在语义主权理论和DIKWP模型等方面已开展前瞻探索并取得初步成果。我国在语义区块链、人工意识测评等新兴方向也有一定研究积累。这些都使我们在国际上率先提出并实践语义主权理念,有望引领相关标准和规则的制定,为“中国方案”赢得话语权。
风险和挑战方面:
· 国际认同与话语博弈:语义主权强调各国维护自身语义体系,可能被某些西方舆论解读为信息管控或“网络割裂”。我们需要注意阐释策略,强调语义主权旨在维护文化多样性、反对算法偏见,并通过丰富案例论证语义不平等的确存在且亟待治理,以争取国际社会的理解支持。在多边场合倡议制定全球语义公平原则,阐明各国有权保护本民族语言文化的数字生存空间。这是一场国际话语权的博弈,我们既要据理力争,也要防范个别发达国家可能的技术封锁和标准围堵。
· 技术封锁与标准竞争:语义主权涉及AI底层技术、语义网络、区块链等诸多领域。如果我国在这一前沿发力,难保不会触动某些跨国科技巨头和其所在国家的利益,它们可能通过技术封锁、专利壁垒等手段加以遏制。此外,在国际标准组织中围绕语义技术和AI治理的标准之争将趋于激烈,我们需要积极参与标准制定并力争主导权,否则有可能在新一轮标准体系中落入被动。
· 自身技术短板:虽然我们数据和应用场景丰富,但在高端芯片、基础模型算法、关键语义技术上仍有不足。语义主权体系涉及跨语种NLP、知识表示、因果推理、数据标注等大量前沿课题,亟需持续投入攻克。尤其高水平复合型人才匮乏,既懂AI技术又精通语言学、文化学的人才极其稀缺。如果人才供给跟不上,可能影响语义主权战略的落实深度。
· 产业落实难度:语义主权理念要转化为普遍的产业实践,需要产业界投入资源开发相应产品和服务。然而短期看,企业可能缺乏动力去自发执行诸如语义评估、白盒测评等要求,因为这些增加了成本而市场拉力尚不足。如何通过政策引导和市场机制,激励企业参与语义主权生态建设是一个挑战。若激励不足,语义主权可能停留在试点,难以规模化推广。
平衡安全与发展的拿捏:在推进语义主权过程中,也要警惕走向另一个极端——过度强调控制而忽视了AI发展的开放创新。如何平衡安全与创新,既保障语义安全又不扼杀AI技术活力,是政策设计中需要深思的问题。我们应确保引入的规范和评估不会给产业造成不合理负担,同时通过开放接口和开源等方式,凝聚更广泛的社会力量参与语义技术创新。
总体而言,优势为我所长、风险需未雨绸缪。我们应扬长避短,趋利避害,充分发挥自身有利条件,同时主动识别并化解可能的挑战,以稳健推进语义主权战略目标的实现。
政策建议为确保我国语义主权体系建设行稳致远,下面提出若干可操作的政策建议和组织保障措施,供决策部门参考:
· 制定国家层面的语义主权战略规划:由中央层面统筹,将语义主权纳入数字中国和新一代AI战略顶层设计。建议在“十四五”数字经济规划、中长期科技发展规划中增设“语义主权”专项,明确总体目标、重点任务和时间表。由科技部牵头会同工信部、网信办等部门尽快出台《关于加强主权AI语义体系建设的指导意见》,从政策层面对各地区各行业提出要求,在全国形成统一推进格局。
· 设立跨部门语义主权推进机制:建议由国务院成立高规格的“语义主权建设协调小组”,成员包括科技部、工信部、中央网信办、教育部、文化和旅游部、国家标准化管理委员会等单位,以及相关领域权威专家(如段玉聪教授等)。该小组负责统筹协调语义主权相关政策制定、标准研制、试点示范等工作,定期召开会议通报进展、解决跨部门问题。小组下可设若干专业委员会,如语义标准委员会、语义安全评估委员会等,分别承担标准制定、评估认证等具体任务。通过建立长效协调机制,保障语义主权推进过程中各部门协同配合。
· 加大关键技术科研攻关和复合型人才培养:由科技管理部门设立“语义主权关键技术”国家重点研发专项,集中攻克语义区块链、高效语义推理引擎、白盒测评工具、跨语言知识融合等瓶颈技术。支持高校和科研院所组成联合攻关团队或设立研究中心,鼓励产学研合作创新。在教育部“双一流”建设中,推动相关高校在计算机科学、语言学、情报学等学科交叉设立“语义技术与主权AI”方向,开发课程和教材,建立硕博培养点,培养既懂AI技术又精通语言语义的复合型人才。同时,通过全国人工智能大赛等方式,鼓励青年人才投入语义技术创新。
· 开展语义主权试点示范工程:选择基础条件较好的地区和行业先行试点,探索语义主权实施路径。例如,在海南自由贸易港或雄安新区等标志性区域,试验建设DIKWP语义数据交换平台,推动政府数据和公共数据按语义标准开放流通,验证语义区块链在数据要素管理上的效果。又如在工业互联网领先的省市(浙江、广东等),试点搭建语义主权工业平台,在重点产业园区或龙头企业落实语义标准和白盒评估流程。在智慧城市试点地区,引入语义主权治理框架到城市大脑中,探索公众参与语义监督的新模式。对试点效果显著的地区和单位给予政策、资金激励,并及时总结经验向全国推广。
· 完善语义标准体系与认证评估制度:由国家标准化主管机构牵头,加快制定覆盖数据格式、知识表示、语义区块链、AI测评等方面的国家标准和行业标准。积极推动我国自主语义标准走出去,提高国际标准采纳率;对国际上成熟的相关标准,及时等效转化为国标,保证与国际接轨兼容。建立第三方语义评估认证机制:支持具资质的检测机构开展“语义主权符合性评估”服务,对企业的数据产品、AI系统进行语义偏见测评和语义安全测试,出具权威报告。监管部门可将通过评估作为市场准入或政府采购的参考条件,倒逼产业各方自觉遵循语义主权要求。同时,针对语义主权相关的工具和平台,建立认证体系,认可一批可信的语义区块链平台、DIKWPaaS平台等解决方案,加速标准落地。
· 激励产业生态建设:通过产业政策和资金引导,鼓励企业投入语义主权相关产品研发。对研制语义区块链平台、DIKWPaaS平台、知识图谱工具等关键软硬件的企业,在研发费用税前加计扣除、高新技术企业认定等方面给予倾斜支持。设立“语义技术创新奖”,评选奖励在语义主权实践中做出突出贡献的单位和个人,营造良好创新氛围。鼓励大型互联网和AI企业开放中文知识图谱和语言模型接口给中小微企业使用,形成“大企业引领、中小企业协同创新”的局面。政府产业基金可考虑设立语义科技专项基金,投资初创企业和项目孵化,丰富语义技术产业链条。通过以上举措,打造从基础技术、平台到应用服务的完整语义产业生态。
· 加强国际合作与话语传播:将语义主权议题纳入我国数字外交议程。由外交部、科技部等在联合国、G20、金砖国家等多边机制下倡议制定“全球语义公平原则”或行动计划,阐明各国有权维护本民族语言文化在数字空间的生存与发展,争取国际组织和更多国家的认同支持。加强与“一带一路”沿线国家在语义技术和标准方面的合作,例如共建多语言知识库、联合举办主权AI与语义治理主题论坛等,扩大朋友圈。积极参与国际标准化组织相关工作组,推荐中国专家担任主席或编辑职位,提升我国方案在国际标准制定中的话语权。在对外宣传上,利用主流外宣媒体和国际学术交流平台,“讲好中国故事”,突出我国在保障文化多样性、反对算法偏见方面的努力与贡献,以软实力化解部分西方舆论的误解,塑造中国负责任科技大国的形象。
健全法律法规保障:适时将语义主权理念融入我国法律法规体系。未来在修订《网络安全法》《数据安全法》《人工智能治理条例》等时,增加维护语言文字和文化内容在数字化应用中准确表达的条款,将语义偏见视作一种需要防范的安全风险。在著作权法、知识产权法中,探索关于知识图谱、AI生成内容的产权归属和利益分享规则,明确数据和知识作为资源的产权地位,为语义主权提供法律依据。地方层面也可出台配套规章,如要求政府部门使用的AI系统保留决策记录、对重大事项的AI决策辅助进行公示说明等,将语义可解释和审查要求制度化。通过完善法治保障,确立语义主权在法律上的正当性和约束力,为长期推进提供稳定环境。
综上所述,语义主权体系建设事关我国数字时代的文化安全、科技主导权和社会公平治理,意义重大而深远。当前我们在理论和技术上已进行了前瞻性探索,具备一定基础;接下来需要在政策和实践层面加速推动,将语义主权融入数字中国和智能社会建设的方方面面。通过国家意志的引导与各界共同努力,我们有望建立起一个技术自主、语义自控、价值自信的人工智能新生态,使我国在未来全球数字竞争中掌握更主动、更有利的话语权。
段玉聪教授
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-7-7 20:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社