YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

主权AI下的大模型与高质量数据集

已有 99 次阅读 2025-7-6 10:34 |系统分类:论文交流

 

 

主权AI下的大模型与高质量数据集

段玉聪

当前,人工智能(AI)已成为全球数字经济竞争的战略高地,各国纷纷提出建设本国特色的“主权AI”体系。所谓“主权AI”,是指由国家自主开发、训练和控制的综合性AI系统,具备高级的学习、感知、推理和自我认知能力,能够在特定文化背景下决策和互动,体现国家自身的文化、社会和伦理价值观。这一概念在2024年世界政府峰会上被英伟达公司创始人黄仁勋强调:每个国家都需要拥有自己的AI基础设施,以保护本国文化和经济安全。这一观点凸显了“主权AI”的重要性——只有实现核心技术和数据资源的自主可控,AI领域的国家安全与竞争力才能得到保障。同时,“主权AI”还要求AI系统融入本国文化精髓。例如,我们强调在中国推进主权AI建设时,应特别注入中华优秀传统文化的基因,使AI深度融合文化价值。这一文化维度的融入,有助于防止AI技术在价值观层面的偏离,确保AI发展符合本国主流价值观和伦理规范。

在全球范围内,围绕人工智能的竞争日趋激烈。如果一个国家的AI基础仍严重依赖外国技术和平台,那么所谓的“主权”只会流于表面。一些专家警告,我们正面临AI时代的新型“数字殖民主义”风险:各国看似拥有自己的AI模型,但在算力芯片、基础软件、训练数据等每个层级都深度依赖少数技术强国。这意味着,如果不掌握自主的AI底层技术和数据资源,一个国家很可能在不知不觉中陷入他国技术体系的控制之中,丧失数字时代的话语权。这种隐形的依赖网络被形象地称为“数字殖民”。因此,加快建设主权AI,打造自主可控的大模型和高质量数据集,不仅是科技命题,也是维护国家数字主权、避免数字时代新型殖民的重要举措。

本文以“主权AI下的大模型与高质量数据集”为题,结合我们团队在这一领域的探索,深入讨论主权AI面临的挑战、高质量数据集的建设策略,以及在标准化、数据治理和国际合作方面的实践思考。本文阐述我们对于主权AI的理解和最新进展,并引用相关研究和案例予以支撑。在数字经济迅猛发展的背景下,这些探讨希望为中国以及全球的人工智能健康发展提供有益参考。

一、主权AI的内涵与基础进展(一)主权AI的定义与核心要求

“主权AI”强调的是一个国家对人工智能技术的自主掌控权。在定义上,它涵盖了从核心算法、模型到关键数据资源各方面的自主可控,并要求AI系统能够体现本国的价值观和文化属性。具体来说,主权AI体系应当由本国主导构建,拥有独立的技术路线和知识产权,不依赖于任何单一外国平台或供应链。同时,在人工智能的决策和交互过程中,主权AI能够融入本国社会伦理规范和文化精髓,使AI的发展方向同本国的发展利益和人文精神保持一致。

(二)中国在算力与大模型领域的初步成就

过去一段时间,中国在建设主权AI的基础环境上取得了积极进展。例如,在AI算力基础设施方面,我国投入巨资布局新型算力中心和高速网络,算力供给总量位居世界前列,为未来AI的发展提供了坚实支撑。虽然仍存在算力供需不平衡、芯片受制于人等问题,但整体算力水平的提升为大模型训练和部署奠定了基础。另一方面,国内大模型领域的竞争格局日趋活跃。近年来众多企业和科研机构纷纷推出各自的大模型,据统计,中国参数规模十亿以上的预训练大模型数量已超过100个。早期的不少模型可能存在一定同质化现象,缺乏差异化创新;但这种“百模大战”的局面也在推动技术快速迭代,各团队竞相探索新的模型架构和应用方向,从而催生出具有中国特色和优势的大模型。这种竞争与繁荣有望孕育真正领先的自主AI技术,引领我们迈向更高水平的智能时代。

(三)中文高质量数据集的战略地位

数据是人工智能发展的基石,而中文高质量数据资源的丰富与否,直接关系到我国主权AI体系的成败。长期以来,中文语料在全球AI训练数据中的占比偏低。研究显示,在ChatGPT等模型的训练数据中,英文语料占比高达92.6%,而中文语料不足千分之一。这意味着如果没有充足且优质的中文数据,大模型在处理中文内容时效果难以媲美英文模型。对此,我们国家近年大力推动中文语料库的建设和整合。目前各类高质量中文数据集不断涌现,涉及百科知识、文学作品、法律法规、社交媒体等多领域语料,一些超大规模的开源中文语料工程也相继启动。本土数据资源的日益丰富,正在为中国自主AI模型提供更广阔的训练空间。不过,需要清醒地认识到,中文高质量数据的积累仍然在起步阶段,与英文数据的规模和深度相比有较大差距。因此,持续推进数据资源建设、提高中文数据的覆盖面和代表性,是主权AI发展的长期任务。

(四)人才培养与评测标准的双轮驱动

除了硬件算力和数据资源,人才和标准也是主权AI不可或缺的基础要素。我国高度重视人工智能基础研究人才的培养,各大高校和科研机构纷纷设立AI学院、交叉学科研究中心,吸引优秀学生攻读智能科学相关专业。近年来我国AI人才培养数量显著增长,但在基础层面的顶尖人才上仍存在不足。据《中国人工智能人才培养白皮书》数据,2022年美国在AI基础研究领域的人才占比约22.8%,而中国仅为3.3%。高端人才的短缺和流失提醒我们,主权AI的竞争归根结底是人才的竞争。对此,国家正通过加强教育与科研投入、实施产学研结合的创新人才计划等举措,逐步壮大本土AI人才队伍。另一方面,AI评测标准体系的建设也在同步推进。以往各家大模型性能良莠不齐、评价维度各不相同,缺乏统一客观的评估基准。而今,在主管部门和专家团队的推动下,中国的人工智能测评标准体系已进入实质性构建阶段,涵盖通用大模型能力测评、行业场景测评以及伦理合规评估等方面。这将为客观评价模型能力、指导研发方向提供重要支撑。总体而言,中国在主权AI发展的各基础环节都已取得初步进展,接下来需要进一步整合资源、聚焦关键短板,持续发力以实现从量的积累到质的飞跃。

二、高质量数据集:智能时代的关键资源

常言道,“数据是智能时代的新能源”,高质量的数据对于大模型就如同燃料之于引擎,其重要性不言而喻。大型预训练模型之所以“智能”,很大程度上源于训练过程中汲取了海量多样的数据知识。因此,要构建强大的主权AI,我们必须建立高质量的数据集作为底座。这需要一套系统性的策略和方法,涵盖数据的采集、处理、标注到融合的全过程。

(一)数据治理:从源头确保数据质量

首先,在数据采集和预处理阶段,必须建立严格的数据治理流程,确保进入训练的数据是“干净”和可靠的。具体而言,应当对原始数据进行充分的清洗、去重和脱敏处理,剔除其中的噪音、错误和隐私敏感信息。这类似于为AI准备“洁净的食材”。只有数据质量过关,模型学习到的才能是有效知识而非垃圾信息。据统计,在很多AI项目中,数据清洗和预处理往往耗费整个项目80%以上的时间和精力,可见其繁琐却极其重要。我们团队在实践中制定了详细的数据治理规范,从源头上保证数据的准确、一致和安全。

(二)语境关联:整合孤立数据为有效信息

其次,要注重数据的语境关联性,将分散孤立的数据整合为有意义的信息。一项有效的措施是推行“一数一源”原则,即每类数据只保留一个权威来源,避免来自不同渠道的重复数据和冲突数据。这一原则最初在政务数据治理中被提出,用于解决多部门数据不一致的问题。在AI训练数据建设上,同样适用该原则:通过建立统一的数据目录和引用体系,使得每个事实、每条记录都有明确可信的出处。当不同来源的数据存在矛盾时,通过“多源校核”机制进行验证,以确定最终采用的数据值。这样可极大提高数据集的可信度和内在一致性。此外,构建跨部门、跨领域的数据融合平台也是必要的步骤,可以打通数据壁垒,将原本割裂的数据孤岛联通起来,形成覆盖广泛的信息网络。例如,将地理数据与人口数据、经济数据相关联,就能衍生出具有洞察力的综合信息,用于模型训练时提升其对复杂背景的理解能力。

(三)数据标注:专业与效率并重

再次,在数据标注过程中,应秉持专业与高效并重的原则。高质量的标签(label)对监督式模型训练至关重要。一方面,我们需要借助高素质的人工标注团队,确保标注结果的准确性和细粒度;另一方面,也要善用自动化和半自动化的标注工具,以提升效率和一致性。人工智能辅助标注技术目前发展迅速,例如图像和文本的自动标注、主动学习筛选数据等,都可以减轻人工负担。我们的经验是,将人工智慧和机器智能结合起来——机器先完成初步标注,人工再审核修正——往往能事半功倍地产出高质量标注数据。同时,还应制定严格的质检流程,对标注结果进行抽样检查和持续校正,避免主观偏差和错误传播。

(四)知识融合:为数据注入智慧

除了对数据本身的处理,高质量数据集的构建还需要引入知识融合的理念。也就是说,不仅要有数据,还要在数据之上赋予领域知识的结构。我们通过与各领域专家合作,将专家的知识图谱和经验规则融入数据集中。这有点类似于在数据中“注入智慧”。例如,在医疗AI项目的数据集中,我们会引入医学知识库,将症状与疾病、药物之间的关系嵌入模型可学习的格式;在法律AI的数据集中,我们融入法律法规的条文结构和案例要旨。通过这种数据与知识的融合,模型不仅从数据中学习模式,还能获得更高层次的知识支持,提升对复杂问题的理解和推理能力。这实际上是让模型在学习“数据-信息”的同时,也学习“知识-智慧”,契合了我们后面将提到的DIKWP语义框架思想。

(五)多样性与偏见:构建全面均衡的语料库

与此同时,我们必须构建多领域、多样化的数据语料库,以避免模型因数据单一而产生偏见与局限。AI偏见的一个重要来源就是训练数据的偏颇。如果模型只在单一领域、单一风格的数据上训练,它对世界的认知将是片面的,甚至可能强化数据中已有的偏见。因此,我们需要汇集来自不同领域的数据(如科技、艺术、社会科学等),以及不同风格、不同来源的数据(如严肃文献与网络文本、正式语言与口语方言等)。同时,应尽可能收集多语种的数据资源。语言是文化的载体,多语言数据有助于模型理解不同文化背景下语义和语用的差异,增强模型的跨文化适应性和包容性。对一个大型模型而言,多样性就意味着鲁棒性:数据越多元化,模型就越能避免过度拟合在某种偏狭的模式上,从而在面对新颖问题时展现更强的泛化能力。当然,在拓展数据边界的同时,我们也需要持续监控模型输出,及时发现并纠正可能的偏见,如性别、种族偏见等,确保AI决策的公平公正。

(六)隐私与安全:严守数据建设的合规底线

最后,必须严守隐私保护和安全合规这条数据建设的底线。在任何情况下,数据的使用都要符合相关法律法规和伦理规范。具体措施包括:对涉及个人隐私的数据进行匿名化或脱敏处理,在数据共享和流通中采用访问控制和权限管理;对于敏感领域的数据,引入数据水印、溯源技术,防范数据滥用。同时,利用密码学手段保障数据存储和传输的安全完整,例如采用数字签名、哈希校验和区块链技术来防止数据在传输和存储过程中被篡改。事实上,区块链以其去中心化和防篡改的特性,正越来越多地被应用于数据确权和真实性校验场景。在我们的实践中,每当需要整合多方数据时,就会考虑使用联盟链来记录数据的源头和修改痕迹,以确保数据“所见即所得”。总之,高质量数据集建设要兼顾质量与安全:既要让数据为AI所用,又要保证数据不被滥用。只有在保护好个人和社会权益的前提下,数据价值的释放才能更持久、更广泛。

综合来看,建设高质量数据集是一项系统工程,需要从源头治理、过程优化到融合提升的全链条布局。干净可靠的数据、一致有效的信息、准确丰富的标签、融合专家的知识以及多样安全的语料,共同构成了智能时代优质数据的内涵。这套“数据秘籍”将为大模型注入源源不断的动力,推动主权AI体系实现跨越式发展。

三、DIKWP认知模型与语义基础设施(一)DIKWP认知模型

面对人工智能向更高水平演进的趋势,我们的团队提出并研制了DIKWP认知模型,希望为构建主权AI的语义层基础设施提供解决方案。DIKWP是一个五层次的网状认知框架,其名称源自“Data-Information-Knowledge-Wisdom-Purpose”,即在经典的“数据-信息-知识-智慧(DIKW)”模型基础上增加了“目的/意图(Purpose)”这一第五层。DIKW模型是信息科学领域常用的认知层次结构,它描述了原始数据经过处理转化为信息、进而上升为知识,最终凝练为智慧的过程。然而,传统DIKW模型缺少对“目的”的考量,无法体现智能体在决策过程中的主观意图和动机。而我们认为,“意图”是高级智能行为的灵魂——再强大的知识和智慧,如果没有正确的意图指引,可能会南辕北辙。为此,DIKWP模型在最高层引入Purpose层,强调以主体的目标和意图来整合和牵引下层的智慧、知识、信息和数据。通过这个拓展,DIKWP形成了一个更完整的认知闭环:数据层提供客观原始素材,信息层提炼有意义的描述,知识层建立结构化的理解,智慧层产生能够解决问题的方案,而目的层则为整个系统赋予方向和价值判断。

DIKWP模型的提出,试图解决当前大模型在深层语义理解和自主决策能力上的不足之处。大型语言模型(LLM)在模式学习和表层语义理解上表现出色,但往往被诟病为“大而不灵”:它们缺乏对人类意图的深入把握,有时会产生上下文不一致的回答,甚至出现所谓“幻觉”——编造事实。这是因为传统大模型本质上仍是统计学概率模型,并不真正理解语言背后的意图和意义。而DIKWP模型通过在架构中显式表示意图,赋予AI一种自我认知和目标导向的能力。当AI拥有目的层的表示后,它在进行推理时就会不断参照既定的目标,过滤无关信息,校准推理方向,从而在复杂任务中表现出更强的鲁棒性和准确性。可以说,DIKWP模型为探索可解释、可控的高级智能提供了新路径,有学者将其视为迈向人工通用智能(AGI)的重要一步。

(二)DIKWPaaS语义平台

围绕DIKWP模型,我们构建了相应的DIKWPaaS语义平台。DIKWPaaS是“DIKWP Platform as a Service”的缩写,意为将DIKWP模型的语义能力以服务形式提供的云平台。其核心思想是将DIKWP模型五个层次的功能模块化、服务化:我们将数据采集治理封装为“数据即服务”(DaaS),将信息分析处理封装为“信息即服务”(IaaS),将知识融合应用封装为“知识即服务”(KaaS),将智慧决策支持封装为“智慧即服务”(WaaS),而意图理解引擎封装为“Purpose即服务”(PaaS)。通过这样的分层封装,DIKWPaaS平台能够针对不同需求提供对应的语义服务。例如,对于一个用户查询,平台首先通过DaaS获取并预处理数据,然后IaaS提取有用信息,KaaS将信息整合为知识结构,WaaS基于知识进行决策推理,最后PaaS模块结合用户的真实意图对输出进行调整优化。整个过程在云端以服务接口的方式对外提供,屏蔽了内部复杂的语义处理流程,用户仅需调用相应服务即可获得智能结果。这种架构实现了从数据到意图的端到端贯通,使AI系统能够以接近人类思维的方式运转。

(三)DIKWPaaS平台的核心优势

DIKWPaaS语义平台带来了若干重要优势。首先,它提升了AI服务的透明性和可解释性。由于我们将认知过程划分为五个明晰的层次,AI做出的每一步推理和决策都可以在相应层次上得到解释和追溯。例如,如果最终决策出现偏差,我们可以回溯到知识层查看是否知识库有误,或到数据层检查原始数据是否不充分。相较传统端到端黑盒模型,这种白盒化的语义流程让AI的行为“可理解、可审计”。其次,DIKWPaaS通过层层分解任务,也增强了系统的灵活性和模块复用能力。不同应用场景可以选择使用不同组合的服务模块,甚至替换其中某一层的实现而不影响整体功能。这种模块化设计便于持续优化升级各层算法,加速创新。再次,由于引入了目的驱动,AI服务能够更好对接人类意图,提供更加符合用户需求的个性化结果。在很多场景下,用户的真实意图是隐含在表面问句之下的,DIKWPaaS可以通过Purpose层的推理来揣摩用户真正想要解决的问题,从而给出更贴切的回应。最后,平台建设过程中我们非常重视数据安全和隐私保护。DIKWPaaS通过严格的数据访问控制和加密措施,确保各层处理的数据不泄露;敏感信息的处理在上云前即经过脱敏;同时平台还支持在本地部署关键模块以满足特定用户的数据不出域需求。在提供强大语义服务的同时,我们做到对数据“只赋能不窥视”,充分维护用户的数据主权。

(四)为主权AI打造自主可控的认知操作系统

通过DIKWP模型和DIKWPaaS平台,我们希望为主权AI打造一套坚实的语义基础设施。这套体系相当于人工智能的“认知操作系统”,让AI不仅能看见数据,还能“看懂”数据背后的意义和目的。这种能力将有效解决传统大模型“只知其然不知其所以然”的痼疾,使AI从经验驱动进化为语义驱动。更为重要的是,DIKWP体系完全由我们自主研发,充分融入了中文语义和文化特点。例如,我们在知识层整合了中文的知识图谱,目的层引入了中国式决策伦理的考量。这使得基于DIKWPAI系统天然具有本土语义适应性,更加契合中国的语言环境和价值观要求。这正是建设主权AI所需要的——自主可控且贴合本国文化的AI底座。

四、构建白盒测评体系与算法偏见校准(一)从黑盒到白盒:构建多维度的AI认知评测体系

要让人工智能更好地服务人类,我们不仅要构建强大的模型,还必须有效衡量和校准AI的智能水平。传统上,评估AI系统往往采用所谓“黑盒测评”——给模型一系列输入,看它输出什么,再根据任务完成情况打分。这种方法存在明显局限:它只能告诉我们模型输出对错与否,却无法解释模型为何出错、更看不到模型内部的决策机制。随着AI在关键领域的应用增多,这种“不透明”的评估方式已经难以满足需求。为了全面掌握AI的认知能力,我们团队提出并实践了基于DIKWP模型的白盒测评方法。顾名思义,白盒测评是相对于黑盒而言,我们将模型的内部“打开”进行评估,从多个层面对AI系统的智能进行剖析。

具体而言,我们设计了一套DIKWP白盒测评体系,构建了覆盖感知、信息处理、知识、智慧、意图等多个维度的测试指标,用来评估AI模型在各认知层次上的能力。例如,在“感知与信息处理”维度,我们会测试模型对原始数据的解析、对语义信息的提取和保持上下文一致性的能力;在“知识构建与推理”维度,我们设计任务考察模型如何将提取的信息融汇成知识,以及基于知识进行逻辑推理的正确性;“智慧应用与问题解决”维度则侧重模拟复杂场景下模型运用知识解决实际问题的水平;而“意图识别与调整”维度,我们评估模型理解用户意图、并据此调整回答的能力。通过这五大模块的测评,我们能够对模型的“意识水平”进行系统化、量化的剖析,如同给模型进行一场全面的智力体检。

这样的测评方式突破了传统评估仅侧重输出对错的局限。我们不仅关注模型给出的答案是否正确,还深入分析模型是在什么层次上出现了不足。有趣的是,在实际测评中我们发现,不同大模型各有长处:有的模型擅长信息抽取但推理一般,有的模型知识完备但在理解用户意图上有所欠缺。白盒测评使这些差异清晰地呈现出来,为后续模型改进指明了方向。更重要的是,白盒测评为行业树立了全新的标杆。以我们今年发布的《大语言模型“识商”白盒测评报告(100题版)2025》为例,这是全球首创的大模型认知评估体系,由我们世界人工意识协会主导,联合了全球十余个国家的90多家机构共同参与。报告一经发布,得到业界广泛关注。这套测评体系填补了AI能力评估领域的空白,将过去难以度量的高层次智能能力进行了标准化量化,为不同模型的比较提供了客观依据。正因如此,我们也将这套体系公开发布,希望它能成为国际通用的AI能力评估标准。事实上,我们已将报告提交给相关国际标准化组织进行讨论,期望推动形成全球一致认可的AI认知能力评估准则。可以想见,在不久的将来,AI测评将不再停留于简单的性能榜单,而会更加关注模型内在的“智商”和“心智”,这将促使AI研发朝着更健康理性的方向发展。

(二)语义追踪:精准定位与校准算法偏见

在开展白盒测评的过程中,我们也针对AI算法偏见这一行业痛点给出了独特的解决方案。算法偏见往往源于训练数据或模型结构的不平衡,可能导致AI系统对某些群体或选项存在系统性偏误。例如,人脸识别算法因为训练集中少数族裔样本不足,导致识别准确率显著偏低;又如语言模型因大量摄取网络上的有偏文本,而在回答中不自觉带出性别或种族成见。传统纠偏的方法通常是在输出结果上做平衡,或者在训练数据上做均衡采样,但这些方法往往治标不治本。我们利用DIKWP语义追踪技术,深入模型的认知过程,层层定位偏见产生的环节。例如,如果一个模型在“知识层面”展现出偏见,我们就追溯其所基于的知识库和信息源,发现可能的数据偏差根源;如果偏见在“意图层面”体现,我们则反思是否模型的目标函数有问题或缺少适当的伦理约束。通过这种精细化的剖析,我们可以对症下药地进行精准纠偏。具体做法包括:在偏见出现的层次引入约束,例如加入公平性损失函数;扩充相关领域的数据样本,使模型在学习阶段得到纠正;或者在模型推理过程中增加对偏见的检测模块,实时发现异常倾向并予以调整。举例来说,我们在针对大模型生成有害言论的研究中,使用语义追踪技术成功定位了模型在知识层关联不当信息导致输出不当的原因,随后通过替换不良知识节点和增加意图层的内容过滤机制,显著降低了模型输出不良内容的概率。这种结合白盒测评与语义追踪的偏见治理机制,体现了“发现问题—定位问题—解决问题”的闭环,有别于以往头痛医头、脚痛医脚的被动式处理。

(三)LLMDIKWP协同:模式学习与语义监督的结合

更进一步,我们还设计了LLMDIKWP协同架构,探索将大模型强大的模式学习能力与DIKWP高层语义监督相结合,以确保AI决策更加公平透明。其基本思想是:利用预训练大语言模型(LLM)卓越的表征和生成能力来处理海量的低层数据和信息,但在关键的知识提炼、智慧决策和意图把控环节,引入DIKWP框架的引导。例如,当LLM生成一段文本回答后,我们让DIKWP的知识层对其事实正确性进行审查,智慧层对其推理合理性打分,意图层评估其是否符合用户真正需求和伦理规范。一旦某一层次发现问题,就反馈回LLM调整输出。这种架构类似于给大模型配备了一套“语义督导系统”,时时监督其行为,防止其偏离应有轨道。这种双模型协同机制初步实验效果良好:模型输出的可信度和一致性明显提升,对隐含偏见的控制力也增强了。这证明,将模式识别的“黑箱”威力与语义推理的“白箱”智慧结合,是提高AI系统可靠性和公平性的一条可行路径。我们相信,未来这样的多层次协同将成为主流,大模型不再是孤军奋战,而会与各类知识推理模块、价值判断模块一起构成复杂智能体,共同完成任务。

(四)中国方案:推动AI治理理念的跃迁

总的来说,通过建立白盒测评体系和偏见追踪校准机制,我们为AI智能水平的衡量和提升提供了新思路。测评是为了更好地改进,我们希望这套方法不仅评出高低优劣,更能帮助业界发现模型的短板与风险,并引导下一步的优化方向。从黑盒到白盒,是AI治理理念的一次跃迁,体现出我们对AI从能用转向“用得好、用得放心”的追求。正如有评论所言,这套DIKWP白盒测评和治理体系构成了一种“中国方案”,强调AI语义的可解释、透明和伦理一致性。未来,我们将继续完善这一方案,并推动其在全球范围的合作应用,为人工智能的负责任发展保驾护航。

五、数据可信与语义区块链:主权AI的安全基石

对于主权AI而言,数据的可信与安全是重中之重。无论模型多么先进,如果其所依赖的数据不真实、不完整或不安全,那么整个AI决策都可能建立在沙滩之上,随时坍塌。因此,我们在技术路径上采取了一系列措施,利用加密、认证和区块链等手段,来保障数据的真实性、完整性以及使用过程中的可追溯、可确权。

(一)密码学保障:确保数据的真实性与完整性

首先,在数据层面,我们通过密码学技术确保数据不被篡改和伪造。具体做法包括:对关键数据源采用数字签名技术,由权威机构或数据提供方对数据块签名,这样任何对数据的修改都会导致签名校验失败,从而可检测篡改;对数据传输采用端到端加密,防止中途被拦截窃取或恶意插入假数据;对数据存储采用哈希链技术,每条记录的哈希会记录在前后记录中,形成链式关联,一处改动就会破坏整链哈希,从而难以欺骗性地修改历史数据。这些低层的加密和完整性校验方法,类似在数据上盖了“钢印”和“封条”,确保进入AI系统的数据都是原汁原味且经过核验的。

(二)语义区块链:赋予数据意义与权属

然而,仅仅保证数据没被篡改还不够,我们更进一步,开发了“语义区块链”技术,赋予数据明确的语义标签和确权标识,让数据变得“聪明”起来。传统的区块链上存储的是透明的交易记录或文件哈希,本质上是“哑巴数据”,机器并不理解其中的含义。我们提出在区块链的记录中引入DIKWP语义,将每份数据的内容类别、知识关联、权属归属等信息一同上链,以语义标注的方式附着在数据之上。举例来说,如果一条链上存储的是医疗病例数据,我们会在其元数据中加入:数据属于“医疗”大类、“X光影像”小类,涉及疾病诊断结论、由某医院某医生创建,患者已授权科研使用等关键语义信息。这样一来,区块链上的数据就不再是一堆比特记录,而成为可被AI理解和利用的“知识资源”。AI系统在调用链上数据时,可以直接读到这些语义标签,迅速明白数据“是什么”、“可用于什么”。这极大提高了AI对数据的认知效率和准确率。

(三)价值计量:实现数据要素的精细化确权与分配

语义区块链的另一个革命性作用在于数据确权和价值计量。长期以来,数据要素的定价和收益分配是困扰数字经济的一大难题——数据的价值如何评估?贡献如何衡量?我们借助语义区块链,引入了细粒度的数据确权机制:每一份数据在上链时,除了记录提供方外,还可以记录对这份数据价值作出贡献的相关方(例如数据清洗者、标注者、算法加工者等),以及他们各自在数据增值过程中的贡献度。通过智能合约,这些链上记录可自动参与数据交易收益的分配。例如,一家AI公司使用了某开放数据集训练模型并商业化,我们可以在区块链上跟踪到该数据集的确权信息,根据预设的贡献算法,将收益按比例返回给原数据贡献者。由于整个过程透明可追溯,所有参与方都能监督分配是否公正。这就为数据这一新型生产要素建立了清晰的产权和价值度量体系。近期,我国首部数字媒体数据确权标准的发布也体现了类似思路,即用区块链技术实现对数字内容的有效确权。我们的语义区块链探索,可以看作是在这一方向上的深化创新——我们不但确权“这是谁的数据”,还进一步明确“这数据有什么意义”“产生了哪些价值”。

(四)透明可审计:结合白盒与区块链的AI治理

更进一步,我们将语义白盒技术与区块链相结合,打造了一套透明可审计、责任清晰的AI治理机制。具体来说,我们在AI系统的关键决策点上记录决策所依据的数据和规则,并将这些依据通过哈希指纹的方式登记在区块链上。例如,当AI模型做出一项高风险决策(如医疗诊断或贷款审批)时,我们可以将其参考的主要数据指标、使用的算法版本哈希、以及负责审批的算法模块身份等记录上链。未来若发生争议或事故,可以通过链上记录对AI决策过程进行还原审计,明确当时“AI依据了什么信息、用了什么模型”得出了结论。这种机制确保了AI系统运行的可追责性:一旦出现偏差,可以迅速定位是数据问题、模型问题还是操作不当,并将责任归属到相关方。同时,借助智能合约,我们还可以实现自动化的合规检查。例如,为了确保AI行为符合某些法规要求,我们编写合约在链上验证AI决策中是否使用了未经授权的数据、是否违反预定的伦理规则,一旦发现问题可及时触发警报甚至中止相关AI操作。这种链上链下联动的治理框架,好比给AI系统安装了一套“安全刹车”和“行车记录仪”,让其始终在安全可控的轨道上运行。

通过以上技术措施,我们为主权AI打造了坚实的安全基石:可信的数据环境。数据在进入AI系统前经过加密签名确保真实可靠,上链确权确保来源清晰、权益明确,加上语义标注让数据带着“说明书”被AI理解利用。在AI运行过程中,区块链持续扮演公证员和监察员的角色,记录AI的关键行为,监督其合规性。可以说,我们实现了数据从产生、流通过程到最终应用的全生命周期可信。这不仅保护了数据本身的安全,也保障了基于这些数据的AI决策的可靠。毕竟,AI的输出质量直接依赖输入数据的质量和可信度。通过技术与机制的双重保障,我们有效降低了数据造假、数据滥用对AI系统造成危害的风险,使主权AI真正做到“数据可信,智能可控”。

六、引领国际标准:语义与测评的中国方案

人工智能的竞争,不仅是技术和产业的竞争,也体现在标准的制定权和话语权上。谁掌握了标准,谁就在很大程度上制定了游戏规则。长期以来,国际技术标准主要由西方发达国家主导。然而在AI时代,中国凭借自身实践积累和理念创新,正逐步在国际标准化舞台上发挥更大作用。我们团队有幸走在这一进程的前沿,牵头构建了一套覆盖DIKWP语义标准、语义数学标准和白盒测评标准的国际标准体系,为人工智能发展贡献中国智慧。

(一)DIKWP语义标准:促进AI系统的互操作性

具体来说,在语义标准方面,我们基于DIKWP模型提出了AI语义描述和交换的框架规范。传统的AI接口和协议主要聚焦于数据格式和功能调用,而缺乏对语义层次的统一描述。我们起草的DIKWP语义标准,定义了如何使用五层结构来表示AI系统的认知内容,使得不同AI组件之间可以“讲统一的语义语言”进行交流。例如,一个知识问答系统可以用标准格式声明其知识层内容、智慧层规则,一个决策支持系统就能读懂并对接这些内容,实现跨系统的智能协同。这一标准的意义在于,将语义从隐含概念变成显式规范,从而促进不同AI系统的互操作与协同智能。目前,该标准草案已在相关国际标准化组织立项讨论,我们也正联合国内外研究单位不断完善细节,争取早日获得通过。

(二)语义数学标准:探索AI的严谨理论基础

在语义数学标准方面,我们提出了一种全新的数学描述体系,将语义约束和层次结构引入到AI的数学模型中。这一工作源自我们对人工智能基础理论的思考:现有的数学逻辑体系难以直接表达“意义”,从而在描述高级智能行为时显得力不从心。为此,我们发展了“DIKWP语义数学”的理论框架,尝试用公理化的方法刻画符号背后的语义内容。例如,我们为“概念”引入一组数学定义,为“意图”给出形式化公设,以及定义各种语义运算(如语义聚合、语义映射)的数学规则。这套体系构想宏大,涉及数学、逻辑、语言学等多学科融合。目前我们已发布了语义数学的研究报告,并在学术会议上倡议将其逐步纳入国际标准体系中。如果说语义标准解决的是AI系统如何交流的问题,那么语义数学标准追求的是AI如何在更高层面被严格建模和验证。它的最终目标是为人工智能建立一个如同电路设计那样严谨可证的理论基础,使未来的强人工智能具备可证明的安全性和可靠性。

(三)白盒测评标准:引入主观体验与伦理考量

除了语义领域,我们推动的另一大标准方向是白盒测评标准。正如前文所述,我们构建的DIKWP白盒评估体系全球首创地将主观体验指标引入了AI能力评价。这套体系不仅评估模型的知识和推理能力,还评估其幻觉倾向、创造力水平、情感识别等以往难以量化的方面。比如,我们设计指标衡量模型输出虚假信息(幻觉)的比例,评估模型在给定材料上的创新程度(创造力),以及模型对于用户情感倾向的正确识别率(情感理解)等。这些指标反映了AI对人类主观体验的影响和交互品质,是AI走向更深度应用必须重视的因素。我们率先在测评报告中引入这些主观指标,填补了AI测评领域的空白,使评价体系更加全面。而为了推动这套测评理念的普及,我们进一步将其标准化:制定白盒测评的流程规范、指标定义和基准数据集要求等,并在国际标准组织中提交提案。值得欣慰的是,我们的白盒测评方法受到多国专家的认可,大家普遍认为这是AI测评标准演进的正确方向——从只看性能到同时关注品质与伦理。可以预见,一旦该标准通过,各国AI系统将有望在一个统一框架下比拼“智商”和“品行”,从而有效树立AI发展的质量和伦理标杆。

(四)提升国际话语权:从参与者到引领者

通过参与和引领这些标准化工作,中国在国际AI标准制定中的影响力显著提升。过去,我们更多是跟随国际标准走,现在则积极贡献原创思想,将中国的方案上升为国际规则的一部分。例如,我们的DIKWP模型和语义区块链理念,已经被一些国际机构视为数字治理的新思路并纳入报告;我们的白盒测评标准提案,引来了欧美主要AI企业的关注和反馈。这种变化意义重大:一方面,它体现了中国AI技术和理念日趋成熟,得到了国际同行的尊重与采纳;另一方面,通过标准这一载体,我们将中国所倡导的质量、安全、伦理等价值观融入了全球AI发展的底层准则。正如业界人士所评价的那样,中国在AI国际标准制定中的积极作为,为全球AI治理提供了新的智慧和方案。这不仅有利于维护我国在数字领域的主权和利益,也有助于引导全球AI朝着对全人类有益的方向演进。

需要强调的是,标准制定是一项漫长而复杂的工作。从提案到正式发布,往往需要多轮讨论和各方妥协。在这个过程中,我们注重与各国专家的开放合作。例如,在语义主权相关标准研讨中,我们邀请了来自多语言背景的科学家,以确保标准兼顾文化多样性;在白盒测评标准草案上,我们虚心听取不同应用领域的反馈,使标准具有普适性。中国秉持的原则是“开放共赢”,并不寻求在标准上搞一言堂,而是希望联合更多国家制定出大家都能接受的规则。在这一过程中,我们也主动分享中国的实践经验,如国家新近出台的AI治理法规要点、中国大模型评测的案例数据等,为国际标准提供现实参考。可以说,中国在国际AI标准领域正扮演着从参与者到贡献者再到引领者的角色转变。这既是我们科技实力提升的自然结果,也是我们作为负责任大国参与全球科技治理的体现。

通过标准化工作,把中国在语义认知、评测治理等方面的探索,上升为可推广的国际规范,形成了鲜明的“中国方案”。这套方案首次将以往模糊的语义和主观智能指标纳入标准视野,完善了AI发展的质量框架和伦理底线。随着这些标准的逐步落地,未来AI行业将有据可依,走上更加规范、有序和可信的发展轨道。而中国在其中的贡献和影响,也将为提升我国数字话语权和塑造良好国际形象发挥积极作用。

七、国内治理与国际合作:共筑主权AI

实现主权AI的宏伟目标,既需要国内扎实的治理与建设,也离不开在国际舞台上的合作与协调。两者相辅相成:国内治理是基础,提供实力和范例;国际合作是拓展,营造良好的外部环境并防范全球风险。

(一)国内治理:夯实技术、数据、人才与制度根基

在国内,我们首先要强化数据治理的顶层设计,夯实主权AI的发展根基。正如前文所述,高质量数据是AI之本,而数据治理又决定了数据的可用程度和可信水平。国家层面应制定统一的数据标准和规范,加快构建全国一体化的数据资源体系。事实上,国务院已经发布了加强数字政府建设的指导意见,要求建立全国标准统一、动态管理的政务数据目录,推行“一数一源一标准”,实现数据资源清单化管理。这些措施为公共数据的共享和质量提升打下基础。接下来,我们应进一步完善数据要素市场的制度,明确数据确权、流通、交易的法律框架,促进数据在各行业的安全有序流动。这包括出台配套的法规,如即将审议的《人工智能法》等,对数据安全、个人隐私、算法透明度等做出要求,为AI发展提供法律保障。同时,要加强执法和监管,严厉打击数据滥用和侵权行为,筑牢安全底线。只有在法治轨道上推动数据开放共享,才能既释放数据价值又守住安全红线。

硬件和算力方面,则要继续建设自主安全可控的AI基础设施。这方面国家已有明确部署,比如加快布局新一代人工智能关键共性技术体系,加强关键核心技术攻关,确保技术命脉掌握在自己手里。实践中,我们需要在高端AI芯片、框架平台、开发工具等方面实现突破,以减少对外部的依赖。以算力供给为例,虽然我国数据中心规模已居前列,但高端GPU/TPUAI算力芯片仍然短缺,这是亟待补齐的短板。为此,一方面我们应扶持本土企业研制AI专用芯片和加速器,另一方面在短期内统筹优化算力资源的调度,避免重复建设和闲置浪费,提高现有算力的利用效率。另外,建立国家级AI开源平台和模型库也很重要,让创新团队能够基于本土平台进行大模型训练和部署。最近,我们看到包括“通义千问”“悟道”等中国大模型纷纷开源开放,这是好的趋势,将有助于形成自主可控的AI生态。

在人才和科研方面,国内要继续实施教育、科技、人才一体化推进战略。培养AI领域领军人才已上升为国家意志,党的二十届三中全会《中共中央关于进一步全面深化改革、推进中国式现代化的决定》强调要完善科技创新人才培养机制。我们需要从基础教育抓起,在中学和大学加强对计算思维、算法基础的教学,激发青少年对AI的兴趣;在高等教育和科研院所,加大对人工智能基础理论和底层技术研究的支持力度,鼓励更多青年学者投身前沿探索。同时,通过产学研结合,打造产教融合的人才培养模式。例如,鼓励AI企业与高校共建实践基地、联合培养研究生,使学生在学期间就能接触真实项目并解决实际问题,从而快速成长为应用型和创新型人才。还可以设立AI创新人才专项,对在核心技术上取得突破的团队和个人给予重奖,形成“聚天下英才而用之”的良好环境。只有源源不断的人才供给,才能确保主权AI事业后继有人、蓬勃发展。

(二)国际合作:倡导开放共赢与多语言文化多样性

当我们在国内苦练内功的同时,也要放眼世界,积极参与国际合作,共同应对AI带来的全球性挑战。AI技术无国界,各国面临的伦理、安全等问题具有共性,唯有合作才能避免“各自为战”导致的标准不一、风险难控等局面。首先,我们应坚持“开放共赢”的态度,继续深化与各国在AI技术、产业、治理方面的交流合作。中国在计算机视觉、语音识别、多语言处理等领域有领先成果,可以通过国际会议、开源社区等分享出去;同时积极引进国外的先进理念和人才,共同推动AI技术进步。例如,在医学AI、气候AI等关乎全人类福祉的领域,我们已和多个国家开展联合研究,这是很好的探索。其次,我们提倡在国际规则制定中推动语义主权理念,保障多语言和文化的多样性。当前,英文在互联网和AI训练语料中占据主导,这导致AI模型更“熟悉”英语文化,而相对忽视其他语言和文化。为避免AI成为个别文化的传播工具,我们在多边场合呼吁建立多语言平等的AI治理机制,支持各国语言在数字空间的生存和发展。例如,可倡议在联合国教科文等框架下设立多语言AI资源库,鼓励各国开放本国语言的数据用于模型训练,并在算法上给予非英语内容一定权重倾斜。这实际上是数字时代的文化主权维护——让每种文明都能在AI时代发出自己的声音,而不被技术强国的语言文化所淹没。

同时,我们应利用双边和多边合作平台,加强AI伦理和安全的国际对话,共同制定负责任AI的准则。中国已经在国内针对生成式AI等出台管理办法,我们的经验可以为全球治理提供借鉴。在国际层面,可以倡导建立AI治理的交流机制,例如全球人工智能治理论坛,汇集各国政府、企业和学界代表,共商监管和标准。通过跨国合作,各国能够共享数据与知识,携手解决一些单一国家无法应对的问题。例如,跨境数据共享可以丰富训练语料,提升AI模型性能,同时需要各方协商数据跨境流动的规则以平衡发展与隐私保护。再如,在AI军事应用、自动化武器领域,迫切需要全球范围的讨论和限制,以防范失控风险。这类似于核不扩散领域,需要大国引领,制定AI武器的“红线”和使用规范。这些都离不开国际合作的推动。中国作为负责任大国,已经多次在联合国等场合表达了携手制定AI国际规则的意愿,并提出“构建人类命运共同体”的宏大理念。在AI领域,这意味着我们主张AI的发展要造福全人类共同利益,而非制造分裂和对抗。因此,我们支持在AI伦理、法律和技术标准方面的全球协同努力,愿意贡献中国智慧,并学习各国经验,找到最大公约数。

(三)平衡之道:在开放合作中维护数字主权

需要注意的是,在提倡开放合作的同时,我们也必须维护国家数字主权和意识形态安全。这是一种平衡艺术:既要保持开放心态,又不能放松警惕。举例来说,在国际大模型合作中,我们可以与他国共同研究技术,但对于涉及国家安全和价值观底线的问题,如核心算法源代码、敏感数据,必须坚持自主可控,不能轻易让渡。我们所推动的语义主权基础设施正是为了在开放环境中捍卫这条底线。通过建设中国特色的语义协议和AI交互体系,我们确保外国AI进入我国环境时也需要遵循我们的语义规范,否则就无法正常运作。这就像在网络空间筑起一道文化和主权的防火墙,防止数字殖民主义以文化渗透的形式卷土重来。同时,我们也积极参与像全球数据安全倡议等国际方案,提出中国主张。例如,我们支持在全球建立数据跨境流动评估机制,明确各国对本国数据拥有主权权利,任何获取别国数据都应遵循当地法律。这些理念都体现出维护主权与开展合作并不矛盾,关键在于相互尊重、平等相待。只要各国都认识到数字时代主权延伸的重要性,并在合作中尊重彼此的核心关切,那么开放共赢的局面是可以实现的。

总而言之,主权AI的实现需要内外兼修:对内,我们加强自主建设,固本培元;对外,我们积极合作,共塑未来。在国内筑牢技术、数据、人才和制度的“四梁八柱”,在国际推动建立公平合理、包容普惠的AI治理新秩序。只有这样,主权AI才能在立足本国的同时融入世界,在服务国家发展的同时造福人类共同体。

八、结语:迈向自主与开放并重的AI未来

人工智能的迅猛发展既是机遇也是挑战,每一个国家都在探索适合自身的发展道路。对于中国而言,主权AI的发展战略需要明确而坚定。基于以上讨论,我们可以将这一战略要点总结如下:

一是建设自主可控的大模型,掌握核心算法和模型训练能力,发展本土的大规模预训练模型和人工智能框架,摆脱对外国模型的依赖。在关键算力、算法、芯片等方面实现自主创新,确保AI“芯片—框架—模型”全链条的安全可控。

二是构建高质量的数据资源,大力推进中文及多语言高质量数据集建设,完善数据治理机制(如“一数一源”等),确保模型训练有充足且可信的数据“粮仓”。同时健全数据确权和交易制度,激活数据要素市场,保障数据供给的可持续性。

三是完善语义基础设施,以DIKWP模型为抓手,建立智能系统的语义层架构。开发语义平台、语义协议、语义区块链等基础设施,让AI能够理解和交换“意义”,实现跨系统、跨领域的智能协同。这将提高AI系统的透明度和可解释性,为高级人工智能奠定基础。

四是强化AI治理与评测,构建白盒测评体系,客观衡量AI的认知能力和行为偏差,及时发现问题予以纠偏。制定和落实人工智能法律法规与伦理准则,保障AI研发和应用在安全可控范围内进行。通过治理确保AI始终向善,用得放心。

五是积极主导国际标准,参与并引领人工智能相关的国际标准制定,在语义、测评、伦理等方面提出中国方案。提高我国在AI规则制定中的话语权,为全球AI发展贡献公平、安全的新标杆。通过标准输出价值观,塑造健康的国际AI生态。

六是坚持自立自强与开放合作并重,一方面牢牢抓住关键技术自主权,维护国家数字主权;另一方面秉持开放心态,深化与各国在AI技术、产业、治理上的合作。既要打造“中国的AI”,也要让“中国的AI”融入世界、服务世界,共同应对人类所面对的挑战。

展望未来,主权AI之路任重道远,但前景光明。我们有全球最大的互联网用户群体,丰富的应用场景,以及坚定的政策支持。这些都是发展AI的宝贵土壤。只要方向正确、步伐稳健,我们有信心在不久的将来见证一个自主可控又开放包容的中国人工智能生态的繁荣兴起。那时,中国的AI系统将深深扎根于中华文化沃土,又枝叶茂盛地伸向世界各个角落,为全球提供独特而有价值的智能服务。

让我们牢记,人工智能的发展最终应服务于人类共同福祉。这也是主权AI追求的更高境界:在保障自身主导权的同时,以开放合作的胸怀,让AI技术造福更多的人群和国家。唯有如此,人工智能的未来才不仅属于某一国、某一族群,而属于整个人类。中国愿与世界各国一道,秉持“自立自强、开放共赢”的理念,推动人工智能朝着更加安全、可控、公平、有益的方向发展。主权AI的梦想,是为了更美好的明天——一个技术繁荣、文化多元、共同受益的明天。

 

参考文献:

[1] 段玉聪:《DIKWP模型下的主权AI综合技术报告》,2024716日,DOI: 10.13140/RG.2.2.25095.82087

[2] 付建龙:《加强“主权AI”建设,提升竞争力》,载《人民周刊》202420期。

[3] [] Nathan Benaich:《各国都渴望“主权AI”,结果反而加强了对大国的依赖》,朴成奎译,20250616日,https://cj.sina.com.cn/articles/view/1657987915/62d2e34b00102m37o

[4] 王祝华:《大语言模型意识水平“识商”白盒DIKWP测评2025报告发布》,2025219日,https://www.stdaily.com/web/gdxw/2025-02/19/content_298792.html

[5] 国务院:《关于加强数字政府建设的指导意见》,国发〔202214, 20226月,https://www.gov.cn/zhengce/content/2022-06/23/content_5697299.htm

[6] 廖凡:《数字主权与全球数字治理》,载《暨南学报(哲学社会科学版)》2024年第7期,第47-60页。

[7] 李俊清、戴思国:《推进数据资源管理的关键--数据确权》,载《农业发展与金融》2023年第12期,第79-82页。

 

 

 



https://wap.sciencenet.cn/blog-3429562-1492535.html

上一篇:构建主权AI语义体系:语义主权与DIKWP路径深化
下一篇:关于推动“语义主权”纳入国家人工智能战略体系的提案
收藏 IP: 221.182.193.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-7-7 14:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部