YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

基于DIKWP 语义解析的专利潜在侵权检测报告——以“基于数据图谱、信息图谱和知识图谱的语义建模及抽象增强方法”为例

已有 99 次阅读 2025-5-15 19:03 |系统分类:论文交流

 

 

 

基于DIKWP 语义解析的专利潜在侵权检测报告——以“基于数据图谱、信息图谱和知识图谱的语义建模及抽象增强方法”为例

 

 

 

郭振东、段玉聪

 

 

 

 

 

International Standardization Committee of Networked DIKWP for Artificial Intelligence Evaluation(DIKWP-SC)

World Artificial Consciousness CIC(WAC)

World Conference on Artificial Consciousness(WCAC)

(Email: duanyucong@hotmail.com)

 

     

1. 引言

近年来,随着技术创新的不断深入与全球竞争的加剧,专利申请量持续攀升。如图1所示,发明专利、实用新型专利和外观设计专利的申请量整体呈现稳步上升的态势,且合计专利数量在近几年有明显增长,并在某些年份出现了更为突出的跃升。  

 

1:近十年专利授权统计

根据图1显示,近十年间,专利授权数量总体呈现先上升后趋于稳定的趋势:

2014年至2020年:专利授权数量稳步增长,达到历史峰值,反映出技术创新的活跃和知识产权保护意识的加强;2020年以后:专利授权数量有所下降,但仍保持在较高水平。这表明在专利政策调整与市场环境变化的背景下,专利授权的质量和标准可能得到了进一步优化。

这一趋势说明,尽管近年来专利授权数量有所减少,但技术创新和专利保护依然是推动市场竞争与经济发展的重要驱动力。专利授权的数量及其变化趋势反映出技术创新的活跃度,同时也对侵权纠纷的潜在风险提出了新的挑战。如何在这一背景下高效识别潜在侵权专利,成为当前研究的重要方向。

随着专利申请数量的显著增加,专利侵权纠纷案件的数量也呈现出快速增长的趋势。专利侵权不仅涉及复杂的技术对比和法律问题,还因技术竞争加剧和知识产权保护力度的提升而进一步凸显其重要性。特别是在当前的全球市场环境下,专利侵权纠纷逐渐成为技术创新与市场竞争中的重要议题,受到企业、法律机构以及研究者的广泛关注。为了更直观地展现近年来专利侵权案件的变化趋势,图2展示了我国2014年至2024年间专利侵权纠纷行政案件的数量统计及变化情况。

 

2:近十年专利侵权纠纷案件数量统计

根据图2所示,近年来我国专利侵权案件数量呈现出持续且显著的增长趋势,具体表现如下:

逐年递增的总体趋势:自2014年起,专利侵权案件数量稳步上升,从2014年的7,671件增长至2024年的67,375件,十年间增长近9倍,显示出专利纠纷的普遍性和严峻性。

近几年的快速增长:尤其是在2018年后,案件数量增速加快,2018年为33,976件,到2024年已增长至67,375件,反映出专利保护工作面临的压力日益加大。

此外,非专利实施实体(Non-Practicing Entity, NPE)的参与成为专利侵权案件激增的重要推手。NPE主要通过持有大量专利并以此进行许可谈判或诉讼牟利,而非实际实施专利技术。其行为特点包括:

1)大量专利收购与集中化管理;

2)针对技术开发企业或竞争对手提起侵权诉讼;

3)借助法律和市场手段牟取高额经济利益。

NPE 的频繁介入导致更多企业陷入专利诉讼中,不仅加重了技术开发企业的经济和法律负担,也进一步恶化了市场竞争环境,成为专利侵权案件快速增长的驱动力之一。

面对这一趋势,专利侵权的高效检测与准确识别已成为当务之急。如何通过智能化、系统化的技术手段快速定位侵权风险专利,同时针对NPE相关案件进行精准分析和识别,不仅是知识产权保护的重要方向,也是维护技术创新生态和市场秩序的关键举措。

在上述背景下,传统的专利侵权检测多基于人工分析与对比,存在以下问题:庞大的专利数据规模难以人工精确检索,技术领域跨越面广带来理解和比对困难,多方利益纠缠造成综合评估复杂。这些因素导致成本高、效率低且准确性易受分析人员主观判断影响。

在大数据和人工智能时代,如何高效地进行专利技术的侵权风险检测成为知识产权领域的重要课题。传统方法往往依赖人工比对或关键词检索,难以准确捕捉不同技术方案间的语义关联和深层创新意图。为了解决这一问题,本报告引入DIKWP语义分析框架,对专利进行数据、信息、知识、智慧、意图五个维度的语义解析和比对。DIKWP 模型是对经典 DIKW(Data–Information–Knowledge–Wisdom)模型的扩展,相较于传统DIKW模型,引入了“意图”(Purpose)作为核心要素,强调驱动数据、信息、知识和智慧互动的目标。通过增加意图层,DIKWP模型能够更全面地表示技术方案的价值导向和设计初衷,在侵权检测中实现更高层次的语义对齐。

本报告以“案例一”所涉及的目标专利——“基于数据图谱、信息图谱和知识图谱的语义建模及抽象增强方法”为研究对象(发明专利,公开号 CN107038261A,发明人段玉聪等),运用 DIKWP 框架对其进行五维语义解析,并选取两件相关候选专利(CN113535966B  CN110597992A)进行对比分析。这两件候选专利分别来自业界领先公司(阿里巴巴集团、腾讯),在知识图谱构建和语义推理领域具有代表性,有可能涉及与案例一核心技术的相似之处。通过 DIKWP2Vec 算法对目标专利和候选专利进行语义向量建模,并计算五维语义余弦相似度,我们将量化评估候选专利相对于目标专利的潜在侵权风险等级。最终,报告给出系统输出结果示例,包括匹配雷达图和风险评估报告,并从法律和政策角度讨论该方法的实用价值。报告融合学术严谨性、工程实用性和政策可读性,希望为企业和研究者提供一套全面的专利语义侵权检测思路。

2. DIKWP 模型语义数学定义与转换机制

本章系统定义 DIKWP 模型的五个层级语义含义,并给出结构化的数学表示。同时阐述各层级之间的映射关系与语义转换逻辑,用形式化函数和推理机制表示数据→信息→知识→智慧→意图的逐层推演过程。记五个维度分别为 DIKWPData, Information, Knowledge, Wisdom, Purpose)。概念上,DIKWP 模型将客观事实逐步升华为有意义的信息、知识和智慧,最终服务于特定意图目标。下面分别定义每个层级,并描述相邻层级间的映射函数(如 I = f(D)K = f(I) 等)及语义推理机制。

2.1 数据(Data)

定义语义含义: 数据层表示客观的原始事实及其记录,通常以未加解释的数值、符号、文本等形式存在。它包括传感器采集的基础数据、数据库中的原始字段、软件系统输入/日志等一切未经语义处理的基本素材。数据是信息的原材料,在这一层还未赋予复杂含义。

形式化表示: 可将数据维度形式化为一个集合或多元组序列:D = {d1, d2, ···, dn},其中每个 di 表示一个独立的原始数据元素。数据元素可以是数值记录、文字片段、图像像素等。整个数据集 D 作为 DIKWP 语义链的起点。在DIKWP模型中,信息层内容由数据经过处理获得,可抽象表示这种转换为函数 fDI

I = fDI(D)

即信息 I 是数据 D 的函数映射结果。函数 fDI 可以理解为对原始数据进行组织、聚合或计算的操作,将数据转化为更有意义的结构。本质上,数据维度提供输入,通过处理函数为信息维度提供原料。在语义推理上,这对应于从事实提取信息的过程。

2.2 信息(Information)

定义语义含义: 信息层是在对数据进行组织和处理后形成的具象化描述,表示有意义的数据”。信息体现为数据间的关系、上下文和结构化内容,例如事件的记录、实体的属性和关联、数据统计特征等。经过信息处理,原始数据被赋予了上下文语义和结构,成为人或机器更容易理解的内容。

形式化表示: 信息可以被建模为在数据基础上增加了关系和结构的集合:I = {i1, i2, ···},其中每个 ij 表示一条语义化的信息元素(例如一条三元组、一段描述、一个表格记录)。信息源自数据的语义提炼,存在映射函数 fIK 将信息提升为知识:

K = fIK(I)

这表示知识 K 是由信息 I 转化得到的结果。 fIK可以是从信息中抽取模式、规则或通用原理的算法,例如聚类、分类、归纳总结等。在语义推理中,信息层相当于对数据加注释、建结构,使之具有解释意义。从数据到信息(I = f(D))和再到知识(K = f(I))的过程,使零散的原始数据逐步凝练成体系化的信息,为上层知识的形成打下基础。

2.3 知识(Knowledge)

定义语义含义: 知识层是在信息基础上提炼出的一般规律、模式或可重用经验。知识具有抽象性和普适性,往往以模型、定理、规则、架构、图谱等形式呈现。它反映某领域中的概念体系和联系,例如领域本体、知识图谱中的节点-边关系、经验法则、操作流程等。知识将具体信息提升为更高层次的理论或方法

形式化表示: 知识可以表示为概念和关系的集合或网络:K = (E, R),例如由实体集 E 及关系集 R 构成的知识图谱。知识源自对信息的抽象归纳,其获取可视为函数 fKW

W = fKW(K)

即智慧 W 由知识 K 推演而来。fKW 常体现为利用知识进行推理决策的方法,如逻辑演绎、专家系统规则、算法策略等。知识层的语义推理机制包括:从信息中归纳出新知识、将分散信息关联形成网络,以及利用知识库进行演绎推理等。通过知识层,信息获得了可泛化的模式和工具,为进一步形成智慧(解决问题的能力)奠定基础。

2.4 智慧(Wisdom)

定义语义含义: 智慧层代表综合运用知识解决复杂问题的策略和决策能力。它体现为对知识的深度理解、统筹和平衡,以做出正确判断或创新性方案。智慧往往以高层策略、决策方案、洞察分析等形式出现,例如系统优化策略、高级推理过程、业务决策建议等。简单来说,智慧是“将知识付诸实践并创造价值”的能力。

形式化表示: 可将智慧看作知识在特定目标或情境下应用所产生的输出:W = {w1, w2, ···},每个 wk 表示一个决策、方案或洞察。智慧建立在知识基础上,对知识层输入进行处理得到智慧层输出,可形式化为函数 fWP

P = fWP(W)

此处 P 表示意图层内容,由智慧 W 转化而成。函数 fWP 体现了由智慧指向意图的映射关系,即根据已有的智慧成果,推导出系统或主体试图实现的终极目的(意图)。在语义推理角度,智慧层的机制包括:在各种知识的制约下权衡利弊,形成具有价值判断的方案。智慧是对知识的灵活运用和综合集成,使系统具备解决实际问题、产生效益的能力。

2.5 意图(Purpose)

定义语义含义: 意图层表示系统或主体希望达成的最终目的、目标和价值取向。它回答的是“为何要做”的问题,即驱动数据收集、信息处理、知识运用和智慧决策的根本动机。在技术方案中,意图体现在设计该方案所要解决的核心问题和希望实现的业务价值上。意图通常以目标指标、愿景陈述、价值主张等形式呈现,是整个DIKWP模型的出发点和归宿

形式化表示: 从模型链路上看,意图可以被视为对前四个维度的凝练总结或驱动因素。上一层智慧经过推理决策后应当服务于某种目的,因此可形式化为:P = p,其中 p 表示特定的目标描述,例如“提高系统效率”“最大化盈利”等。意图既可以被看作由智慧产出(通过 P = f(W) 表示),也可以反作用于数据、信息、知识处理过程——在更复杂的网状模型中,意图往往作为先验条件指导各层次的取舍和平衡。在本报告中,我们主要将意图作为DIKWP流程的终点维度,度量技术方案所指向的目标。

语义推理机制: 意图层的推理体现在:根据智慧阶段的方案结果,判断其所服务的最终价值是否达成。例如,如果智慧层给出了某决策方案,意图层将对照预期目标评估其有效性。另一方面,在实际实现中,意图也可以先行定义并指导下层处理(目标导向推理)。总而言之,意图维度确保整个过程围绕明确的目的,并衡量最终产出与初衷的契合程度。

2.6 DIKWP映射关系与语义转换逻辑

DIKWP模型各层级通过函数映射推理机制紧密衔接,构成从原始数据到最终目的的语义链条。整体的映射关系可表示为:

 

这表明数据经过 fDI 转换产生信息,信息经 fIK 抽象形成知识,知识经 fKW 运用产生智慧,智慧经 fWP 达成意图。各映射函数在不同层次上体现出不同的语义推理特点:

· fDI:数据→信息 – 执行对原始数据的组织、清洗和结构化操作,赋予上下文语义。例如,通过统计和聚合将日志数据整理成报表信息,或通过关系抽取把文本数据变成知识三元组。这个阶段属于语义赋值过程,将杂乱的数据转化为有意义的信息单元。

· fIK:信息→知识 – 执行对信息的归纳和模型化操作,抽取普遍规律或构建知识网络。例如,从多条相关信息中归纳出一条规则,或将信息节点连接形成知识图谱。这个阶段相当于语义抽象过程,通过推理整合提升信息层次,使之成为可泛化运用的知识。

· fKW:知识→智慧 – 执行对知识的应用和决策推理,将静态知识转化为动态的决策和洞察。例如,利用知识规则推理出某种结论,或在冲突知识间权衡制定策略。这个阶段实现价值判断,从已有知识出发考虑现实目标,产出具体决策方案,体现出智慧。

· fWP:智慧→意图 – 执行对智慧成果的目的映射,确定这些成果服务的终极目标,并评估目标达成度。例如,根据一系列商业决策(智慧)判断其是否实现了“盈利最大化”的意图。这个阶段闭合了语义循环,将产出对应回原始动机,形成目标验证。反之,明确的意图也会影响智慧阶段的策略调整(目标牵引)。

需要注意的是,在复杂应用中,DIKWP的层级互动并非严格单向。一方面,高层意图往往先行存在并指导低层处理(如目标驱动的数据筛选、信息推理),这可视作函数 fDIfIK 等对意图参数 P 的依赖;另一方面,低层结果也可反作用调整高层策略(如发现新知识改变决策意图)。因此DIKWP模型实际更像网状反馈模型而非简单链式。然而,为了分析清晰,我们在本报告中按照链式方向描述映射逻辑,并在案例中关注从数据到意图逐层累积的语义信息流。这样的分层建模和函数形式表示,使我们能够在专利侵权检测中明确地区分不同层面的技术特征,并分析它们之间的对应关系和差异。

3. 方法论综述

DIKWP模型结构: DIKWP 是“数据-信息-知识-智慧-意图”五维一体的语义模型框架,其中每个维度的概念已在第2章形式化定义。在这里,我们简要回顾其要点:数据层涵盖原始客观事实,信息层是对数据的语境组合,知识层提炼一般规律形成知识库,智慧层利用知识进行策略决策,意图层代表系统追求的终极目标。DIKWP 模型将上述五个层次区分又相互关联,为语义分析提供了系统化框架。特别地,在 DIKWP 模型中,每一维度的内容都可以映射为相应的图谱表示:数据图谱 (DG)、信息图谱 (IG)、知识图谱 (KG)、智慧图谱 (WG) 和意图图谱 (PG)。这种图谱化表示方式便于刻画各维度要素及其联系,并为后续算法处理打下结构基础。

3.1 DIKWP四大语义空间定义

DIKWP模型不仅划分了数据、信息、知识、智慧和意图五个维度,还进一步提出了四大语义空间理论,这为专利侵权检测提供了清晰的语义分析框架。这四大语义空间分别是:

1)概念空间(Conceptual Space)

概念空间是指对客观世界中各类实体及其属性进行明确定义和分类的语义空间。在专利分析中,概念空间包含专利文本涉及的基础概念(例如数据类型、实体名称、技术术语)以及它们之间的基本关系(例如上下位关系、分类关系)。概念空间通常以知识图谱、本体论(ontology)等结构化的形式进行表示,能够清晰表达专利技术的基本语义元素。

2)语义空间(Semantic Space)

语义空间是在概念空间基础上,进一步表达概念之间更加丰富的上下文关联和语义关系的空间。在专利分析中,这包括技术方案中实体之间的交互关系、流程顺序、功能组合、因果链条等。例如,案例专利中提到的“数据频度”和“内聚度”分析即属于语义空间中的交互语义关系。语义空间往往通过信息图谱表示,体现实体间交互频率与语境关联。

3)认知空间(Cognitive Space)

认知空间是专利分析中用于表示系统或主体如何处理知识并生成决策或结论的空间。它表达知识之间的推理、规则应用、策略生成和决策逻辑。例如案例专利中通过知识图谱自动推理新关系,以及采用熵值评估搜索结果可信度等机制,即属于认知空间的活动。认知空间通过智慧图谱和规则引擎表示,展现技术方案如何使用知识进行决策。

4)意图空间(Purpose Space)

意图空间是最高层的语义空间,代表技术方案设计的根本目标和价值导向。在专利分析中,意图空间表达的是发明目的、技术效果和业务目标。例如案例专利的“提高需求语义完整性”和“价值驱动设计”等明确的目标描述,即属于意图空间。意图空间通常以明确的目标指标或愿景陈述体现,指导其他空间的处理过程。

通过这四大空间,DIKWP模型实现了对专利技术方案的完整语义表达,从底层数据到高阶意图的层次分析。

3.2 3-No问题的定义与处理机制

在专利侵权检测中,传统的关键词匹配方法经常面临“不完备(No completeness)、不一致(No consistency)、不精确(No accuracy)”这类3-No问题,这严重影响了检测准确性。DIKWP模型通过各层次间的语义转换和交互机制,为3-No问题提供了解决方案。

1)不完备问题(No completeness)

不完备问题指专利文本或技术方案描述中存在的信息缺失或遗漏现象,导致语义分析无法全面捕捉真实的技术内涵。DIKWP通过数据图谱与信息图谱之间的交互补充缺失信息:利用已有数据的频度分析和实体抽象方法推断可能缺失的关系或实体。例如,案例专利中提出通过频繁项挖掘与数据节点内聚度分析自动补全信息图谱,实现对不完备信息的自动修正。

2)不一致问题(No consistency)

不一致问题体现在专利文本中出现前后矛盾或冲突的技术描述,难以明确核心特征。DIKWP模型通过知识图谱和认知空间的规则推理机制识别和解决此类问题:例如,通过对专利说明书和权利要求之间的知识图谱结构化比对,检测不一致描述,并通过自动推理提出修正或补充方案,确保技术描述的一致性和连贯性。

3)不精确问题(No accuracy)

不精确问题涉及到专利中模糊、不确定的语义描述,难以进行精确的技术特征定位和比较。DIKWP通过智慧图谱与意图空间结合的可信度评估机制,有效解决这一问题:例如在案例专利中采用信息熵和置信度机制评估搜索结果,动态调整搜索策略,过滤不确定性较高的信息。通过不断迭代和用户反馈,逐步提升语义描述的精确度。

DIKWP模型以其完整的五维结构和明确的语义转换机制,有效地识别和处理了专利技术侵权检测中的3-No问题,提升了整体侵权检测的可靠性和准确性。

 

DIKWP2Vec 算法原理: DIKWP2Vec 是一种将 DIKWP 五维语义表示转化为计算机可处理向量的算法,思想上类似于将文本转化为向量的 Word2Vec/Doc2Vec,但融入了 DIKWP 的结构信息。其核心步骤包括:

· 语义要素提取 (Semantic Feature Extraction) 从专利全文中提取与数据、信息、知识、智慧、意图各维度相关的关键内容。可以采用基于规则的解析或自然语言处理技术,将专利文本映射为 DIKWP 五类语义片段。例如,识别专利中的原始数据类型和参数属数据层信息;提取描述数据交互、流程或结构关系的句子作为信息层内容;定位专利提出的算法原理、模型框架属知识层内容;分析专利中体现的优化策略、性能权衡属于智慧层;提炼发明目的、技术效果等对应意图层。这一步相当于对原始专利文本进行“五维标注”与拆解,使每个段落句子归属到 DIKWP 某一维度语义单元。

· 维度语义映射与表示: 将每个维度提取的文本进一步转化为向量表示。可对每个维度分别构建语义嵌入模型:例如采用词向量模型(如 Word2Vec)在该维度的语料上训练,或利用预训练的语言模型(如 BERT)对该维度的文本段落进行编码,得到数据向量、信息向量、知识向量、智慧向量和意图向量。由于不同维度的语义性质不同,可以针对每个维度选取不同的特征表示方法;例如数据层侧重数量和类型特征,可选用 TF-IDF 向量或 One-hot 直方图表示;知识层侧重关系网络,可考虑图嵌入表示等。DIKWP2Vec 算法将五个维度的子向量按照固定顺序进行拼接融合,得到统一的专利语义向量表示 V = [vD; vI; vK; vW; vP],以综合反映该专利在各维度的语义特点。融合前通常会对不同维度向量进行归一化或加权,以避免某一维度数值范围过大对整体向量造成偏置。

· 语义相似度计算方法: 对于两个专利的 DIKWP 向量表示 V1, V2,采用余弦相似度作为度量其语义接近程度的指标。余弦相似度计算公式如公式 (1) 所示:

 

其中分子为两个向量分量的内积,分母为各自范数的乘积。余弦相似度取值范围 [-1, 1],在我们的语义嵌入空间中因各维度向量均为非负,所以实际相似度范围在 0 到 1 之间。取值越接近1表示两个专利在语义上越相似。除了余弦相似度外,还可考虑欧氏距离、曼哈顿距离等作为补充指标,但由于向量维度较高且需要关注方向一致性,余弦相似度是较为合理且常用的选择。

通过上述过程,DIKWP2Vec 算法将 DIKWP 五维语义模型与向量空间模型结合起来,实现了对专利文本在保持语义结构的同时进行数量化表示,为后续的相似度计算和侵权判断提供了基础。在本报告后续分析中,我们将采用该算法对案例专利及候选专利生成语义向量并计算相似度,以支撑侵权风险评估。

4研究架构与主要技术路线

本研究基于 DIKWPData-Information-Knowledge-Wisdom-Purpose) 框架展开,利用其网状关系对专利文本进行多维度的语义映射与相似度计算,实现对潜在侵权风险专利的自动识别与评估。DIKWP 作为一个网状模型,不同维度之间并非简单的递进关系,而是通过动态语义关联和语义映射构建跨层次的语义资源关系网络。研究整体架构如图3所示,包含以下三个核心模型与流程:

 

3 总体流程图

1) 模型1:目标机构侵权数据收集

模型1的目标是面向潜在侵权目标机构,收集其专利、商标等知识产权数据,为后续比对与分析奠定数据基础。模型1的输出是形成目标机构所有专利信息的列表,确保专利数据的完整性和准确性。

其中关键点包括从国家知识产权局、专利检索引擎及其他开放数据库中获取完整专利数据;对专利文本进行预处理,包括去除噪声、格式标准化,以及专利信息与目标机构的关联;针对不同的知识产权类别(如发明专利、实用新型专利、外观设计专利)进行分层管理。

2) 模型2:专利侵权候选机构数据收集与 DIKWP 映射

模型2的目标是针对可能存在侵权行为的其他机构(包括非专利实施实体 NPE),收集其专利信息,并结合目标机构的数据,完成多维度语义映射与转化,为技术相似度计算和侵权风险评估奠定基础。

模型2以模型1的输出(目标机构专利信息列表)为输入,与候选机构的专利数据结合,构建对比分析的基础。

1. DIKWP 映射:将原始专利文本映射为 DIKWP 语义资源(数据、信息、知识、智慧、意图),构建多维度的概念空间资源。

数据资源:提取基础的专利描述信息,如技术要素和专利范围;

信息资源:通过差异分析捕捉专利文本的特征与模式;

知识资源:提取专利中的技术原理、实现方法等核心知识点;

智慧资源:结合上下文和伦理考量,理解专利的技术影响与潜在风险;

意图资源:映射专利的创新目的及其商业价值目标。

2. DIKWP2Vec 转换:将概念空间资源进一步向量化,转化为语义空间中的结构化表示,支持高效的语义检索和技术对比。

输出是生成候选机构专利的语义空间表示,并完成与目标机构专利信息的多维语义关联,为技术相似度计算提供结构化和向量化数据。

关键点

1. 针对不同类型的专利(如发明专利、实用新型专利、外观设计专利)进行差异化处理,确保语义映射的精确性;

2. 解决专利文本中跨领域技术词汇与自然语言表达的差异,实现跨领域的语义一致性;

3. 在语义转化过程中,保持概念空间资源与语义空间资源的动态关联,为后续计算提供高质量输入。

3) 模型3:相似度计算

模型3的目标是利用从模型1和模型2获取的专利语义空间表示,计算目标专利与候选专利的技术相似度或文本相似度,并基于计算结果生成侵权指标,从而判断是否为高风险侵权专利。

方法

1. 语义相似度计算

利用 DIKWP2Vec 的向量特征,结合传统的语义检索技术(如词向量匹配、主题模型),对专利文本在语义空间中的相似程度进行计算;

引入侵权语义函数 ,其中 PAPB 分别表示目标专利与候选专利的语义向量,通过度量二者在语义空间中的距离(如余弦相似度、欧式距离等)量化其技术相似度。

 

2. 侵权指标评估

在技术相似度的基础上,通过综合考量 DIKWP 模型的语义资源,构建侵权指标函数frisk,将技术相似度、创新意图、技术应用场景等多维度特性整合,生成最终的侵权风险评分:

 

其中 D 表示数据维度的相似性,I 表示信息维度的特征匹配程度,K 表示知识维度的核心技术重叠度,W 表示智慧维度的场景和伦理约束,P 表示意图维度的创新目标一致性。

3. 高风险专利识别

依据侵权风险评分阈值(设定 风险评分>T 为高风险),筛选出高侵权风险专利对或专利组;

同时生成包含详细分析的风险评估报告,供企业和法律机构进一步参考。

输出

生成高侵权风险专利对或专利组的清单,并输出侵权风险评估报告,其中包括:

1). 目标专利与候选专利的技术相似度;

2). 基于 DIKWP 语义资源的侵权风险评分;

3). 针对高风险专利的详细分析和解释。

为了应对专利侵权检测中存在的技术复杂性和语义表达多样化问题,本文基于 DIKWPData-Information-Knowledge-Wisdom-Purpose) 框架,构建了一套完整的侵权检测模型方法。该方法通过将专利文本从概念空间逐步映射到语义空间,并利用语义向量化技术和侵权指标计算,实现对潜在侵权风险专利的自动识别与量化评估。

本文方法的核心是依托 DIKWP 网状语义模型,通过语义映射和语义向量化过程,全面捕捉专利文本中的数据、信息、知识、智慧及意图维度的特征。基于这些特征,本文提出了语义相似度计算与侵权指标量化的融合方法,能够高效筛选出高风险侵权专利对,并生成相应的风险评估报告,为企业或法律机构提供决策辅助。

4展示了本文方法的整体架构,主要包括以下几个步骤:专利数据的多源收集与预处理,DIKWP 映射与语义空间转换,语义空间中的侵权指标计算,以及风险评估结果的可视化呈现。

 

4 基于DIKWP知识产权侵权检测与识别方法

1) 专利数据多源收集与预处理

a. 目标专利数据收集

收集目标机构的专利信息,包括结构化属性(如公开编号、类别、授权日等)和非结构化文本(如权利要求书、说明书等)。

确保专利数据的完整性和准确性,为后续分析奠定基础。

b. 候选专利数据收集

针对候选机构(包括非专利实施实体 NPE),收集其专利数据。

数据来源包括国家知识产权局、专利检索引擎和开放数据库,涵盖多类别专利。

c. 数据标准化与清洗

对原始数据进行格式统一、噪声去除和属性补全;

针对不同类型专利(如发明专利、实用新型专利、外观设计专利)进行分层管理。

2) DIKWP 映射到概念空间

a. 语义解析与映射

利用 DIKWP映射 方法对目标专利与候选专利的文本进行解析,映射到 DIKWP 的概念空间(Concept Space)。

• DIKWP 语义资源包括:

数据语义(Data):提取专利的基础描述信息,如公开编号和技术范围;

信息语义(Information):捕捉专利文本中的技术模式与特征;

知识语义(Knowledge):提取专利的核心技术内容与实现方法;

智慧语义(Wisdom):结合上下文和伦理考量,理解技术的潜在影响;

意图语义(Purpose):挖掘专利的创新目标和商业价值。

2. 构建概念空间资源

在概念空间中构建目标专利和候选专利的语义网络,为后续向量化表示提供基础。

3) 概念空间到语义空间的向量化转换

a. DIKWP2Vec 转换

利用 DIKWP2Vec 技术,将概念空间中的语义资源转化为语义空间(Semantic Space)中的向量化表示。

向量化结果保留了 DIKWP 语义的关联特性,便于支持高效的语义检索与对比。

b. 语义空间的统一表示

在语义空间中,目标专利与候选专利的表示形式可以直接用于相似度计算与侵权评估。

3) 侵权指标计算与风险评估

a. 语义相似度计算

基于语义空间的向量表示,采用余弦相似度、欧式距离等度量指标计算目标专利与候选专利之间的相似度。

b. 侵权指标函数构建

在语义相似度基础上,引入侵权指标函数 frisk,结合 DIKWP 语义资源,量化专利间的侵权风险评分:

 

该函数综合考虑技术相似度、创新目的(Purpose)、技术应用场景(Wisdom)等维度的综合影响。

3. 高风险专利筛选

根据侵权风险评分,设置阈值T筛选高风险专利对。评分高于 T 的专利对被判定为高侵权风险。

5) 高风险侵权专利释义与结果输出

a. 高风险专利释义

对识别出的高侵权风险专利对进行详细释义,结合具体案例分析其技术相似性和潜在侵权依据。

b. 结果可视化

通过可视化手段(如风险评分雷达图、专利分布网络图)直观展示侵权关系和风险评估结果,为管理者和法务部门提供决策支持。

5. 案例一目标专利的 DIKWP 五维解析

案例一目标专利概述: “基于数据图谱、信息图谱和知识图谱的语义建模及抽象增强方法” 是由海南大学研究团队提出的一项发明专利(公开号 CN107038261A,发明人段玉聪等)。该专利聚焦于软件开发需求分析与设计过程中的语义建模问题,提出利用数据图谱、信息图谱和知识图谱三层架构来增强需求模型的语义表达能力和抽象分析能力。其核心思想是在软件项目的需求分析阶段收集和观察各类原始数据(如用户场景、操作日志、性能指标等),并逐层抽象形成高层次的知识表示,从而弥补传统需求模型(如 UML)在语义完整性方面的不足。该方法属于分布式计算与软件工程交叉领域,被认为是一种价值驱动的设计方法,即在技术建模过程中引入业务价值考虑,以最大化设计产出对业务的贡献。下面我们按照 DIKWP 五个维度对该专利进行解析:

· 数据(D)维度解析: 案例专利中数据层主要体现为对软件需求分析过程中收集的原始数据及其频度的度量和组织。例如,在需求调研阶段获取的用户场景、操作日志、性能指标等原始数据,专利方法引入“数据图谱”结构对其加以组织和标记。特别地,该方法定义了结构频度时间频度空间频度三个指标,用于量化数据项在不同上下文中的出现频率:结构频度指数据出现在不同数据结构中的次数,时间频度指数据在不同时间窗口出现的次数,空间频度指数据在不同模块/组件中出现的次数。系统通过记录数据节点间的关联密度,识别数据集中紧密或稀疏的联系。这些数据层面的度量为后续的信息抽象提供基础,捕捉了数据使用的客观模式。例如,若某数据实体在多个功能模块中被频繁引用且高并发出现,则其结构频度和时间频度都会较高,表明这是需求中的关键数据点。案例专利通过对原始数据及其频度特征的提取,完整描绘了需求阶段的“数据图谱”,为进一步的信息关系分析奠定基础。值得注意的是,该专利的数据层处理并非简单的数据收集,而是带有价值导向的选择和度量——只要能够为后续抽象提供依据的数据都会被纳入图谱。这体现了发明人对于数据资产价值的重视,也为信息层提炼关键信息做好了准备(对应模型中的 I = f(D) 过程)。

· 信息(I)维度解析: 在案例专利中,信息层通过“信息图谱”承载,即记录需求分析中不同实体之间的交互关系和关联频次。具体而言,系统利用前述数据层收集的频度信息,计算实体间的内聚度cohesion),用于衡量两个需求要素(如功能模块或数据实体)之间关联的紧密程度。基于计算得到的内聚度,专利方法对交互频繁的节点进行初步的抽象和集成:如果两个或多个需求元素经常一起出现或交互(高频度且高内聚),则将它们视为一个更抽象的整体或模块。这相当于对需求信息进行初步抽象建模,聚合高相关的信息片段。专利中将这种抽象后的新实体重新标注其结构频度、时间频度和空间频度,以更新信息图谱中的节点信息。通过这一处理,大量分散的具体信息被汇聚为少数抽象信息模块,降低了需求模型的复杂度,突出关键交互关系,形成面向需求的抽象结构。例如,在软件需求中,某些功能模块经常发生数据交互且时间上同步,系统可能将它们抽象为一个更大的功能组件,在信息图谱中作为单一节点记录。信息层的这种频度驱动的聚合有效减少了冗余信息,提高了模型内聚性和简洁性。这一层面的处理相当于从具体信息中提炼出更高层次的组合信息,为知识层的构建提供了精炼的素材,也体现了从信息到知识抽象的雏形。

· 知识(K)维度解析: 案例专利的知识层主要体现在利用知识图谱来表达和检验软件需求模型的完整性。在详细设计阶段,该方法将需求模型映射到一个知识图谱,与传统 UML 模型进行对比,强调语义表达的完整性和覆盖范围。换言之,该发明认为知识图谱在需求语义表达上相较于 UML 等传统模型具有优势,能够更全面地刻画需求中的显性和隐性语义。例如,知识图谱节点可以表示需求概念、约束条件,边可以表示概念间的依赖关系或约束关联,从而确保需求规格说明中隐含的关系也被表示出来。专利明确指出,知识图谱能够增强需求表达的完整性,覆盖那些在 UML 等模型中难以体现的语义关联。因此,在知识维度上,案例专利通过引入知识图谱来存储和推理需求知识。值得一提的是,知识层还利用前述数据/信息层的结果,对需求中的矛盾、不一致进行检测。例如,通过知识图谱的推理机制,发现需求描述中潜在的冲突或遗漏。这在专利中有所暗示:利用数据图谱和信息图谱的频度/内聚度分析结果,可以在知识层验证其合理性,从知识库角度校验软件设计的一致性。总结来说,案例专利在知识维度的创新在于将知识图谱技术引入需求工程,用以表示和验证需求知识,提高需求模型的语义严密性和完备性。这一过程对应 DIKWP 模型中的 K = f(I) 转换——从信息图谱提炼出知识图谱,并利用知识推理保障模型正确性。

· 智慧(W)维度解析: 虽然案例专利的标题未直接提及“智慧图谱”,但其方法中蕴含了一定的智慧层面考量。首先,专利通过数据层→信息层→知识层逐步抽象,体现了一种系统性的设计智慧:即如何在保留关键细节保持模型简洁之间取得平衡。这种平衡本身可被视为智慧层的决策体现。例如,发明人在方法中需要选择何种阈值的内聚度来决定信息节点的合并、取舍哪些细节上升为抽象概念,这些都需要经验和策略,实际上是将专家智慧融入算法的过程。另外,专利提到该方法跨越经济规划和技术实现之间建立双向价值驱动的桥梁,旨在最大化业务盈利能力。这种将业务价值纳入技术模型优化目标的思路,同样体现了一种智慧——它超越了纯技术考量,把商业智慧融入技术方案。因此可以认为,案例专利的智慧维度体现在:通过频度分析和知识图谱抽象,实现对复杂需求的自动简化,同时确保模型与业务目标的一致性。这种能力正是智慧层关注的——利用知识解决实际问题并产生价值的能力。总的来说,案例专利虽然没有单独实现一个“智慧图谱”模块,但在设计原则上融入了智慧要素,使其方案不仅在学术上新颖,也在工程实践中有效。这也表明该方案已经在 W = f(K) 意味上有所探索:将知识层成果用于策略性决策和平衡,以体现更高层次的智慧考量。

· 意图(P)维度解析: 案例专利的意图层非常明确,即提升软件需求分析与设计过程的价值驱动性和语义完整性。从专利背景来看,作者指出现有方法在价值导向的数据/信息/知识生命周期评估上存在挑战,因此提出本发明。专利的核心意图包括:① 跨越商业与技术鸿沟,在经济规划和技术实现之间建立桥梁,使软件设计既满足技术要求又符合业务战略(双向价值驱动);提高需求模型的语义表达完整性,确保业务需求被准确、充分地表述并理解;增强模型抽象能力,通过自动化的频度分析和图谱抽象减少人工工作量,提升设计效率和正确性。概括来说,该发明最终目的在于改进软件工程需求阶段的效果,既体现在业务层面(盈利能力最大化)又体现在工程层面(模型准确高效)。这种多层次的目的性正是意图维度的体现。通过 DIKWP 框架分析,我们清晰地看到案例专利的意图:它不仅是一项技术创新,更服务于一个明确的价值主张——让软件设计过程更智能、高效,并更贴近业务价值。这一意图贯穿于数据、信息、知识、智慧各层的设计中,并通过这些层次的实现最终达成。换言之,案例专利在数据→信息→知识→智慧的逐级实现背后,一直由其最终的Purpose所牵引 (P = f(W)):正因为有提高语义完整性和业务价值的目标,才有前述各层的一系列创新设计。

通过上述五维解析,我们对案例一目标专利有了全面理解:它从数据入手量化需求事实,借助信息抽象强化模型结构,以知识图谱保障语义完整性,蕴含智慧策略平衡技术与业务价值,并以清晰的意图为牵引贯穿始终。在此基础上,我们将分析候选专利的全文语义,并在后续章节对比各维度的异同。

6. 三件专利说明书和权利要求逐句语义解析

为了更细致地比较目标专利与候选专利,本章将三件专利的说明书和权利要求按照 DIKWP 五个维度进行逐句语义解析和标注。我们逐条摘录每件专利文档中与各维度对应的关键段落或语句,并注明其所属的维度类别。通过这种方式,可以显性地建立文本内容与 DIKWP 语义层级之间的对应,为后续的对比分析提供依据。下面分别列出:

6.1 专利 CN107038261A 逐句语义解析

数据 (D) 维度:

说明书段落/权利要求

技术内容

[0007] 说明书

数据图谱能记录关键词出现的频度,包括结构频度、时间频度和空间频度。结构频度指数据出现在不同数据结构中的次数(每次计算的数据范围限定为数据所在的最大数据结构),时间频度指数据在不同时间出现的次数,空间频度指数据在不同空间位置出现的次数。

1 (步骤2)

提取需求描述中的关键词,将关键词以节点形式表示在数据图谱上,记录每种关键词的结构频度 Strf、时间频度 Temf 和空间频度 Spaf。本发明定义上述结构频度、时间频度和空间频度的计算方式,如上所述用于度量数据出现的频率分布。

1 (步骤3)

基于步骤2记录的结构频度、时间频度和空间频度,计算数据的总频度 Frequency。(公式1)

1 (步骤4)

基于步骤3得到的数据总频度,按照公式2和公式3计算数据在数据图谱上的支持度 (support) 和置信度 (confidence),以此删除错误或无用的数据。删除数据的条件是同时满足支持度和置信度不低于阈值要求;阈值设定过大会影响图谱表达的准确性,过小则影响表达的完整性,可根据计算反馈结果动态调整阈值。

1 (步骤5)

基于步骤4得到的精简后数据图谱,由领域专家对数据进行清洗,统一含义相同但表达方式不同的数据,减少低频数据。

 

信息 (I) 维度:

说明书段落/权利要求

技术内容

1 (步骤6)

基于精简后的数据图谱构建信息图谱:对数据图谱中的节点和边按照预设规则进行抽象,将频繁交互的多个数据节点整合为信息图谱中的单一节点,记录其聚合后的关联强度。此步骤将高频关联的数据组合成信息模块。

1 (步骤7)

在构建的信息图谱上,计算每个信息节点(抽象模块)与其他节点的交互频度,形成节点间的“内聚度”指标。依据该指标筛选信息图谱中内聚度低的节点,视为弱关联信息并从信息图谱中剔除,以简化模型。

2

信息图谱用于刻画需求信息的结构关系,包括实体模块之间的关联。信息图谱节点可对应功能组件、需求概念等,边表示模块交互关系。信息图谱通过对高频互动元素的抽象以及噪声信息的过滤,实现了对需求信息的模块化和净化。

 

知识 (K) 维度:

说明书段落/权利要求

技术内容

2

构建知识图谱:依据信息图谱中抽象的功能模块及其关系,创建表示需求知识的知识图谱。知识图谱节点表示需求概念或模块,边表示概念间的依赖或约束关系。

3

在知识图谱的基础上进行一致性检查:比较知识图谱与UML模型,确保知识图谱涵盖了UML需求模型中的所有关系和元素。如发现UML模型中存在知识图谱未覆盖的关系,提示可能的需求描述不完整。

4

知识推理:利用知识图谱执行推理规则,发掘需求规范中隐含的关系。例如,通过关系路径搜索,找到两个需求模块间潜在的间接依赖,并据此更新知识图谱。

 

智慧 (W) 维度:

说明书段落/权利要求

技术内容

5

设计容错的需求分析流程:当知识图谱与UML模型存在不一致时,引入人工检查和调整环节,以确保最终需求规格的正确性和完整性。该流程相当于在需求分析过程中融入决策判断机制。

说明书 [0012]

提出一种双向价值评估方法:不仅从技术可行性评估需求实现成本,还从业务价值评估需求优先级。通过平衡技术与业务因素,决定需求实现顺序。该方法让需求分析决策更具智慧,即综合多方面知识做出优化方案。

 

意图 (P) 维度:

说明书段落/权利要求

技术内容

背景技术 [0003]

现有的软件需求分析方法难以同时兼顾技术实现和业务战略目标,导致需求模型不能充分体现价值导向。

发明目的 [0004]

本发明旨在提供一种新的语义建模方法,能够在需求分析中融入业务价值考量,提高需求模型对实际业务目标的支撑作用。同时确保需求语义表达完整,使技术方案满足预期的业务用途。

发明效果 [0006]

通过采用数据/信息/知识图谱的三层建模,本发明实现了技术方案与业务目标的双对齐:既保证技术实现上的可行和高效,又确保最终方案与业务战略一致,从而达到提高软件开发效益的目的。

 

(案例专利 CN107038261A 的逐句解析如上所示。可见该专利围绕“需求分析语义完整性和价值驱动”这一意图,在各维度都体现了相应设计:数据/信息层标记频度抽象需求事实,知识层引入图谱验证需求完整,智慧层加入决策机制平衡价值,最终实现了其预期目的。下面对两件候选专利进行类似的逐句解析。)

6.2 专利 CN113535966B 逐句语义解析

数据 (D) 维度:

说明书段落/权利要求

技术内容

[0002] 说明书

第一数据:包括多个实体名称、数据指标和时间周期,以及所述多个实体名称之间的属性信息。第一数据是构建知识图谱的基础数据集合,涵盖实体及其属性和指标随时间变化的原始记录。

1

获取上述第一数据后,基于预先设定的图谱关系以及第一数据中的实体名称、属性信息、数据指标和时间周期,创建知识图谱。其中预设的图谱关系包括时间周期作为知识图谱的一个节点要素。

 

信息 (I) 维度:

说明书段落/权利要求

技术内容

3

对第一数据中多个实体名称之间的属性信息、数据指标和时间周期进行聚类;根据聚类结果,按照预设的图谱关系,将聚类后的实体名称、数据指标和时间周期的数据作为知识图谱的节点,创建知识图谱。聚类处理可将数据中重复或相似的部分归并,减少知识图谱中的冗余节点。

4

更进一步地,聚类后的知识要素按照规则进行精细整合:将聚类后相同实体名称、相同数据指标且不同时间周期对应的数据作为知识图谱的节点,创建知识图谱。这确保知识图谱中的每个节点唯一对应一个实体在不同时间的系列数据,时间维度被纳入节点表示。

2

预设的图谱关系包括由多个实体名称组成的节点定义、节点的范围和层级结构,以及节点之间的关联关系和层级关系。在知识图谱构建过程中,预先定义的图谱关系相当于该知识图谱的模式或架构,指导如何将原始数据组织为节点及它们之间的边。

 

知识 (K) 维度:

说明书段落/权利要求

技术内容

1

创建知识图谱:依据预设的图谱关系,将多个实体名称及其属性信息、数据指标、时间周期映射为知识图谱中的节点及关系,生成完整的知识图谱结构。其中特别地,在图谱关系中包含时间周期节点,使构建的知识图谱在实体-指标关系之外,还能体现随时间变化的维度。

5

基于已构建的知识图谱,实现信息的获取方法:接收输入的关键词,该关键词包括实体名称、数据指标和/或时间周期;按照知识图谱的图谱关系生成与所述关键词相关联的信息。这里所用的知识图谱正是根据上述方法创建的知识图谱。通过遍历或查询知识图谱,可以从关联的实体节点和关系中获取对应的信息集合。

8

知识图谱的创建装置:包括获取单元和创建单元。其中获取单元用于获取上述第一数据,创建单元用于根据预设的图谱关系将属性信息、数据指标和时间周期等要素关联起来,生成知识图谱。装置的功能模块划分与方法步骤一一对应,实现自动构建知识图谱的功能。

12

信息获取装置:包括接收单元和生成单元。其中接收单元用于接收输入的关键词(实体名称、数据指标和/或时间周期);生成单元用于根据知识图谱的图谱关系生成与关键词关联的展示信息。这里所述知识图谱由创建装置(对应权8-11)生成。装置形式确保了能够基于知识图谱自动查询相关信息。

 

智慧 (W) 维度:

说明书段落/权利要求

技术内容

说明书 [0005]

本发明将时间周期作为知识图谱的节点来创建知识图谱,简化了知识图谱中各节点之间的关系连接。这种改进使得在通过知识图谱获取数据的过程中,可以直接利用时间节点进行关联查询,减少复杂的关联关系,提升查询效率。

5

本发明提供的信息获取方法和装置,能够按照知识图谱的关系快速检索与用户关键词相关的信息,实现从知识图谱中直接获取所需数据。例如,用户输入包含实体名称或指标的关键词后,系统基于知识图谱自动汇总该关键词所关联的各项数据并生成概述结果,从而替代了传统逐级查询的数据获取过程。

15

提供一种计算设备(至少一个处理器+存储器),其执行存储的程序指令时,能够实现上述任一方法(如权1-7所述的知识图谱创建方法或信息获取方法)。这一方面体现了本发明方案在实际系统中的部署形式,为软件或硬件提供支持,以将知识图谱的构建和查询功能集成到现有计算环境中。

 

意图 (P) 维度:

说明书段落/权利要求

技术内容

背景技术 [0002]

长期以来,数据获取主要依赖人工编写 SQL 进行逐级查询,例如先查询某应用的大类数据,再逐层定位到具体服务的数据,过程繁琐导致数据获取效率低下。

背景技术 [0002]

针对上述低效问题,出现了一种改进思路:先基于数据仓库构建数据的知识图谱,再通过该知识图谱中的实体节点和关系获取所需数据。但现有知识图谱的构建方式仍然使得数据获取效率不高——知识图谱节点代表应用、项目或服务等实体,但缺少时间维度直接关联,仍需要多步筛选。

说明书 [0003]

发明目的: 本发明的一个或多个实施例提供了一种知识图谱的创建方法、信息获取的方法、装置和设备,有效提高了数据获取的效率。通过优化知识图谱的构建及查询方式,使用户能够更快捷地得到所需的数据。

说明书 [0010]

效果和收益: 基于本发明所构建的包含时间节点的知识图谱,在数据获取过程中可以快速且准确地获得相应数据,提高数据获取效率;同时,由于将时间作为节点简化了知识图谱的关系结构,各节点关系更清晰,查询路径更简洁,降低了获取数据的难度。

 

(CN113535966B 的逐句解析如上。可以看到,该专利侧重于在企业数据分析场景下构建包含时间维度的知识图谱,以提高数据检索效率。这对应了其意图层“提高数据获取效率”的目标。在各维度上,专利3体现出:数据层完整提取业务数据全貌,信息层通过聚类和统一模型组织数据关系,知识层融合时间节点创建结构化知识网,智慧层实现自动数据查询和分析支持,最终实现了快速获取数据、辅助决策的意图。)*

6.3 专利 CN110597992A 逐句语义解析

数据 (D) 维度:

说明书段落/权利要求

技术内容

[0008] 说明书

预先收集垂直领域的知识图谱数据,包括领域内的实体、关系及属性集合。为了降低复杂度,对知识图谱数据进行解耦处理,将其划分为若干关系组数据集,每个关系组包含在特定上下文下紧密相关的一组实体关系。预处理后的关系组数据作为后续语义推理模型的基础输入。

1

对预先收集的知识图谱数据进行关系解耦和领域划分:采用预训练的领域分类模型对每个关系组进行分类,确定其所属的垂直领域标识。分别存储每个垂直领域的知识图谱数据,保持各领域数据独立。通过这种方式获得多个按领域拆分的子知识库。

 

信息 (I) 维度:

说明书段落/权利要求

技术内容

2

针对每个垂直领域的知识图谱数据,构建对应的领域语义模型。基于分类结果,将关系组数据映射填充到该领域的知识图谱结构中,作为领域信息的结构化表示。通过领域划分和图谱化,复杂的大规模信息被分割成若干可管理的知识单元,为后续推理奠定信息组织基础。

3

采用预置的关系模型,对领域知识图谱中的实体和关系进行语义关联分析。例如,为对话场景预构建领域关系模板,解析对话内容时可以直接匹配知识图谱中的关系路径。这个过程相当于将自然语言的信息需求转化为领域知识图谱上的查询模式。

4

根据预构建的查询模式,在垂直领域知识图谱中执行检索和推理,得到问题对应的语义数据(即答案或所求信息)。例如,对于问答类查询,语义数据即为从知识图谱中找到的答案三元组;对于对话意图解析,语义数据可能是用户意图的符号表示。

 

知识 (K) 维度:

说明书段落/权利要求

技术内容

5

基于选定的垂直领域知识图谱,构建对应的语义推理模型。该模型以该领域的知识为背景,对输入内容进行语义层面的理解和推理。具体而言,语义推理模型融合了该领域下的意图、关系、实体等要素,用于回答或分析用户提出的问题。

5

语义推理模型包括垂直领域意图模型垂直领域关系模型垂直领域实体填槽模型等子模块。意图模型捕捉用户查询的意图类别;关系模型利用领域知识图谱判断用户查询涉及的关系类型;实体填槽模型则从查询中识别并关联具体实体以填充查询模式。通过这些知识驱动的子模型协同工作,系统能够将用户的问题映射到知识图谱上的具体语义路径,形成对问题的结构化表示,并据此在知识图谱中定位答案。

6

将上述语义推理模型应用于对话或问答场景:当目标内容为对话数据时,系统对对话进行预处理和分类,确定该对话所属的目标垂直领域。之后,对对话内容进行分词,提取其中涉及的实体词汇,并匹配对应领域知识图谱中的关系组数据。系统借助领域知识图谱准确理解对话语义。

 

智慧 (W) 维度:

说明书段落/权利要求

技术内容

6

在问答系统中,利用上述语义推理模型对用户的自然语言问句进行深层语义分析,并在知识图谱支持下检索答案。通过垂直领域分类确保检索范围限定在正确知识域,显著提高答案的相关性和准确性。

6

在对话系统中,系统自动解析对话背后的意图并采取行动或给出回复——如对话意图解析出用户请求的是执行某操作,则系统可直接调用相关服务执行。这体现了系统根据语义理解进行自动决策和响应的能力。

7

系统将解析得到的语义数据经过处理生成最终的回复并返回用户。在问答场景下生成自然语言答案,在对话场景下可能采取实际操作。整个过程充分利用知识图谱提高了语义识别和问答的准确率与效率,使机器能够像专家一样基于知识库回答用户问题。

 

意图 (P) 维度:

说明书段落/权利要求

技术内容

5

集成意图识别模型: 语义推理模型中包含垂直领域意图模型,用于解析用户问题意图。例如判断用户是在询问某种属性、原因还是请求执行操作,从而选择合适的解答策略。意图模型确保系统理解“问句想要达到的目的”。

5

领域分类驱动的意图处理: 系统通过对用户输入(问句或对话)的实体和内容分析,自动判定其所属领域。这相当于根据用户意图涉及的主题,将后续处理路由到对应领域的推理模型中。例如检测到医疗领域意图,则使用医疗知识图谱回答,从而契合用户真正关注的语境。

5

槽位填充辅助手段: 在理解用户意图后,系统利用实体填槽模型将问句中的自然语言参数(实体名称等)映射为结构化查询。通过这种人类意图到机器查询的转换,最大程度减少误解,确保检索结果与用户意图一致。整体而言,该专利通过意图模型 + 领域分类 + 槽填充的组合,实现了对用户询问意图的深度把握和精确响应。

 

(CN110597992A 的逐句解析如上。可以看到,该专利聚焦垂直领域语义推理,在各维度的实现细节上体现出:数据层假定已有大规模知识图谱并进行领域拆分,信息层按领域组织并图谱化信息,知识层构建融合意图/关系/实体模型的语义推理框架,智慧层实现跨领域问答和对话理解,意图层通过模型自动解析用户意图类别并匹配正确知识域。这些共同指向其目标:提升问答系统对用户自然语言提问的理解准确率和响应专业性。)

7. DIKWP 各维度详细比对及共性/差异分析

本报告围绕上述三件与数据图谱/知识图谱相关的中国发明专利,按照 DIKWP(数据 Data / 信息 Information / 知识 Knowledge / 智慧 Wisdom / 意图 Purpose)五个维度对其技术机制进行对比分析,归纳各自的语义路径、数据结构、推理模型与用户意图设计等要点。所选三件专利分别为:

· CN107038261A(海南大学,段玉聪等):“一种基于数据图谱、信息图谱和知识图谱的处理架构资源可动态抽象的语义建模方法”。该专利提出利用数据图谱、信息图谱、知识图谱三层架构来辅助软件设计和搜索,引入频度计算和动态抽象机制,提高需求建模的抽象层次和搜索决策效率。其应用场景包括搜索引擎,在用户投入(时间/金钱)驱动下,通过语义理解用户查询意图,采用正反双向递进搜索和可信度评估,提升搜索结果的准确性和完整性。

· CN110597992A(腾讯,缪畅宇等):“基于知识图谱的语义推理方法及装置、电子设备”。该专利致力于构建垂直领域的知识图谱语义推理模型,用于对话或问答的语义分析和回答。其方法包括:对预先收集的知识图谱数据进行解耦,提取关系组并通过预训练模型判别所属垂直领域,然后基于相应领域的知识图谱构建语义推理模型来解析目标内容的语义数据。该模型包含领域意图识别、关系推理和实体填槽等子模块,可准确理解用户提问意图并从知识图谱中获取答案,提高内容识别准确率和数据处理效率。

· CN113535966B(阿里巴巴集团,余文兵等):“知识图谱的创建方法、信息获取的方法、装置和设备”。该专利关注于企业数据的知识图谱构建与信息提取。其方案将时间周期作为节点融入知识图谱,将多个实体、数据指标及时间维度关联起来,简化图谱关系并加速数据查询。基于该知识图谱,可快速准确地获取所需数据,实现多维度的查询分析。例如,通过关键字检索实现各实体在特定时间段的指标汇总,并支持数据贡献度分析和归因分析,辅助商业决策。

以下将分别从数据(D信息(I知识(K智慧(W、意图(P)五个维度,对上述三件专利的技术细节进行条理化比较分析,并在结尾总结它们的共性与差异。

7.1 数据维度分析

数据维度主要考察各专利对原始数据的获取、表示和预处理方式,包括数据结构设计、基础数据关系及质量控制等方面。三件专利在数据层面的核心技术机制如下:

1. CN107038261A(案例专利):

a. 引入“数据图谱”层来承载原始数据,对关键词在不同结构、时间、空间维度中的出现频次进行标记。通过记录数据节点间的关联密度,识别数据集中紧密或稀疏的联系。

b. 采用频度统计计算数据的支持度和置信度,以清洗数据图谱:自动剔除支持度和置信度低于阈值的错误或无用数据。阈值大小可根据图谱反馈动态调整,以平衡表达准确性与完整性。

2. CN110597992A(腾讯方案):

a. 针对预先采集的大型知识图谱数据进行解耦处理,将其划分为若干“关系组”数据集。每个关系组包含在特定上下文或领域下紧密相关的一组实体关系,用于后续的领域分类和知识图谱提取。

b. 将不同垂直领域的知识图谱数据分别存储管理,例如通过区块链等方式保持各领域数据的独立和安全(可选实现),为后续语义推理提供分领域的可靠数据基础。

3. CN113535966B(阿里方案):

a. 从企业数据库获取第一数据集,包括:多个实体名称、数据指标(业务指标)以及时间周期,以及实体与实体之间的属性关系信息。这些实体名称可为应用名称、项目名称、商品名称或它们的组合(如“品牌A电商”),数据指标如交易量、浏览量、盈利等,时间周期可以是1小时、1天、1年等预设区间。

b. 数据集中还包含实体之间以及实体与指标、时间之间的关系定义和层级结构。例如定义了实体“品牌A电商”下包括“品牌”、“商家”等子实体及对应的组合实体,并定义了上下级关系;又如在不同电商实体之间定义同行业关系。这些原始数据及关系构成构建知识图谱的基础。

分析: 在数据层面,CN107038261A 通过数据图谱对原始数据进行结构化表达和度量,特别强调数据的频度属性(结构频度、时间频度、空间频度),并据此清洗冗余噪声数据,保证数据质量。CN110597992A 则假定已存在较丰富的知识图谱数据,首先对其进行拆分(解耦)成关系组,并贴上领域标签,方便后续垂直领域处理。而 CN113535966B 以企业数据库中的业务数据为起点,提取实体、指标、时间及它们的关系,构成全量的三元组数据集合。可以看到,专利1和专利3都非常重视对数据基本要素及其关系的显式记录(频度、层级等),而专利2更多关注如何组织已有大数据图谱以便进入下一步的信息提取流程。这也意味着在 I = f(D) 这一步,专利1和3通过充分的数据结构化和清洗,确保信息提取的可靠基础;而专利2通过数据预分类降低了后续处理的规模和复杂度。

7.2 信息维度分析

信息维度侧重考察各专利如何将原始数据转化为有意义的信息,包括数据的上下文组合、关系组织方式以及对信息的初步处理(如聚合、过滤)等。三件专利在信息层的技术方案如下:

· CN107038261A:

a. 定义“信息图谱”层,用于表示经过上下文语境组合后的信息实体及其关系。信息被视为“有意义的数据”,通过概念映射和关系连接形成,可用关系型数据库等结构来表达。

b. 在信息图谱上记录实体与实体之间的交互频度。基于数据图谱中的数据频度和信息图谱中的交互频度,计算多个交互实体的综合频度,并筛除综合频度低于阈值的节点,以过滤掉弱关联信息。

c. 将交互频度高的实体节点进行抽象集成,形成粒度更大的信息模块。这种聚合提高了模块内的内聚性,降低模块间耦合度,相当于对需求信息进行初步抽象建模。在此过程中同步进行数据清洗,消除冗余数据,保证信息图谱的简洁和一致。

· CN110597992A:

d. 将解耦得到的关系组数据输入预训练的垂直领域分类模型进行分类,识别其所属领域,并据此提取对应垂直领域的知识图谱。每个关系组被赋予一个领域标签(如金融、医疗等),从而将原始信息按领域组织起来。

e. 针对不同领域的信息集,预先构建或存储相应的垂直领域知识图谱,并将关系组数据映射填充到该领域知识图谱中,作为领域内信息的结构化表示。通过这种领域划分和图谱化,复杂的大规模信息被分割成若干可管理的知识单元,为后续推理奠定信息组织基础。

· CN113535966B:

f. 按预设的图谱关系模型,将第一数据集构造成知识图谱。在图谱设计中明确概念定义、概念范围、概念层级、概念间关系、概念内部组成关系等元素,并统一指标名称、时间名称和维度名称。这样确保不同来源的数据指标和时间维度在图谱中具有一致的语义标识。

g. 基于上述语义图谱关系,系统能够从数据库中快速查询与任意给定关键字相关的关联信息。借助知识图谱提供的多关系连接,用户可以从任一实体、数据指标或时间出发查询关联数据,提高了信息获取的效率和准确性。例如,输入某品牌和一个时间周期,可立即得到该品牌在该时间段的所有相关指标信息。

分析: 在信息层,CN107038261A 通过信息图谱将数据赋予上下文语义,特别是利用实体交互频度来衡量信息的重要性和内聚程度。高频交互的实体被抽象为更高层的信息单元,实现需求信息的模块化表达和冗余消除,体现了一种频度驱动的语义组织方法。CN110597992A 则侧重于领域划分:它利用机器学习模型将大规模关系数据按领域分类,分别存入各自的领域知识图谱中。这实际上将原始信息转换为领域信息,为每个领域建立上下文边界清晰的信息集合。CN113535966B 在信息组织上强调统一语义模型的构建:通过预先设计的本体/图谱架构,将不同实体、指标、时间维度关联起来,并解决命名不一致问题。其结果是一个统一的知识图谱,使得信息检索可以跨越多个维度快速进行。总体而言,专利1注重从数据中提炼信息、提升内聚;专利2注重按领域结构化信息;专利3注重全局统一语义以便信息查询。可以说,专利1/2偏重按语义关系或领域对信息进行重组,专利3偏重构建一个全局统一的信息视图。这些不同策略对应了各自 K = f(I) 转换的准备工作:专利1/2在信息层完成了有针对性的重组,为知识层特定方向的抽象做好准备;专利3则在信息层直接搭建了全局知识框架的雏形。

7.3 知识维度分析

知识维度关注各专利如何进一步对信息进行语义抽象、关联推理和知识表示,包括知识图谱的构建细节、图谱推理机制等。三件专利在知识层的主要技术如下:

1. CN107038261A:

a. 构建知识图谱(KG)层,以有向图形式表示知识:节点代表抽象概念或实体,边表示节点之间的各种语义关系。知识图谱作为无层次结构的语义网络,可实现不同来源知识的无缝链接和融合。

b. 通过信息推理和实体链接提高知识图谱的节点和边密度。采用关联规则挖掘技术自动发现潜在关系:例如利用 PRA(Path Ranking Algorithm)算法在知识图谱中枚举大量关系路径,训练关系分类器提取新的关系候选。当某一潜在关系的置信度超过阈值时,将其作为新知识加入图谱。这一机制实现了从已有信息中推理生成新知识,动态扩充知识图谱。

2. CN110597992A:

a. 基于选定的垂直领域知识图谱,构建对应的语义推理模型。该模型以该领域的知识为背景,对输入内容进行语义层面的理解和推理。具体而言,语义推理模型融合了该领域下的意图、关系、实体等要素,用于回答或分析用户提出的问题。

b. 语义推理模型包括垂直领域意图模型、垂直领域关系模型和垂直领域实体填槽模型等子模块(与信息层描述一致)。通过这些知识驱动的子模型协同工作,系统能够将用户的问题映射到知识图谱上的具体语义路径,形成结构化查询,并据此在知识图谱中定位答案。知识图谱在此作为语义模型的一部分,保证推理结果的专业性和准确性。

3. CN113535966B:

a. 创建知识图谱融合业务全貌:将实体、指标和时间等第一数据按照预设模型加载到知识图谱中,并将时间周期作为独立节点加入图谱。相较于传统将时间视为关系的方法,该设计使时间与实体/指标一样作为数据节点存在,从而简化了图谱中关系线的复杂度。

b. 在构建的知识图谱中,包含各类实体节点及它们之间的多种关系。例如,图谱节点包括电商平台实体“A电商”、业务类型实体“品牌”、“商家”,以及它们组合形成的实体“品牌A电商”等;还包括表示业务指标随时间的节点如“时间周期1指标1”等。节点之间定义了层级关系(如“A电商”与“品牌A电商”之间的从属关系)以及关联关系(如不同平台之间的同行业关系)等。通过这种丰富的节点和关系建模,形成能够全面表示业务语义的知识网络,为上层分析提供知识支撑。

分析: 在知识层,三件专利均构建了知识图谱(或利用知识图谱)作为核心,但侧重点不同。CN107038261A 的知识图谱侧重于自动推理新知识:通过路径挖掘和关系分类的方法,发现并补充图谱中隐含的关系,增强知识完整性。这使该专利的知识图谱具有自我进化的能力,能从已有数据和信息中学习新知识规则。CN110597992A 则将知识图谱与机器学习模型结合,构建一个领域特定的语义理解模型。其创新在于利用知识图谱来约束和指导意图识别、关系识别、实体识别等 NLP 子任务,使机器对用户提问的理解建立在可靠的领域知识基础上。换言之,知识图谱在这里成为语义推理模型的一部分,保证了推理过程的专业性和准确性。CN113535966B 在知识图谱构建方面的特点是将时间轴融入知识表示,引入时间节点使得时间维度上的信息检索和关联分析更直接高效。同时,其知识图谱囊括了企业业务中的各种实体、指标及它们的层次/关联关系,形成一个高度结构化的知识网。综上,专利1强调知识获取与扩展,专利2强调知识驱动的语义模型,专利3强调知识结构的完备性和时间维度集成。这反映出知识图谱在不同应用中的角色:CN107038261A 用于知识发现/扩充 (丰富 K 内容),CN110597992A 用于知识支撑推理 (服务于 W),CN113535966B 用于知识整合表示 (广覆盖业务知识)。各自实现了 DIKWP 模型中 W = f(K) 之前的关键一步:构建了满足其后续智慧决策所需的知识基础。

7.4 智慧维度分析

智慧维度考察各专利如何利用知识来进行高级推理、决策支持或智能化处理,即系统从知识中产生“智慧”(如决策、答案、洞察)的机制。以下总结三件专利在智慧层的技术要点:

1. CN107038261A:

a. 提出了容错的递进式搜索策略:当初始检索未找到直接相关结果时,系统在知识图谱上进行关系推理,挖掘新的相关实体和关联关系来扩充图谱的节点和边,然后更新资源集合并重新搜索。这个机制确保即使直接答案缺失,系统也能通过推理获得间接线索继续查询。

b. 对检索到的答案实施倾向性分析:构建模糊倾向词汇表(如“可能”、“或许”等)用于判断答案语句的确定性,将包含不确定表述的答案视为低可信度结果予以剔除。同时按照结论正向(支持)或反向(反驳)将有用答案分为两类,为后续可信度计算做准备。

c. 采用信息熵评估递进搜索过程中答案集合的一致性:在每轮根据某关联因素扩展搜索后,计算结果集的熵值(归一化至0~1),熵值越大表示答案分歧越大、可信度越低。通过不同时间点结果的加权熵指标来衡量信息时效性对可信度的影响。

d. 基于熵值计算每轮搜索结果的资源可信度Confidence):初始假设正反两类答案可信度均为1,每轮更新时将检索结果的熵纳入计算,逐步降低噪声较大一方的可信度。

e. 设定阈值判断正反两类答案可信度之比:若一方显著高于另一方(超过阈值 T 或低于 1/T),则视为有确定倾向,返回高可信度一方的答案给用户;否则进入新一轮递进搜索获取更多信息。正反对比的判定逻辑提高了结论的可靠性。

f. 引入用户反馈环节:如果用户对返回答案不满意,系统提示用户是否增加投入以继续检索。当用户选择增加投入(例如更长等待时间或更多计算资源)后,系统重新分配正反搜索资源权重并进行更深入的递进搜索。这一交互机制确保当用户意图未满足时,系统能自适应地进一步工作,而不是停留在初始答案。

2. CN110597992A:

a. 利用语义推理模型对目标内容(如用户的自然语言问句或对话)进行分析,提取其深层语义表示。通过先前识别的垂直领域知识图谱作为背景,确保解析出的语义数据与领域知识一致可靠,从而实现对输入内容语义的准确理解。

b. 对话场景应用:当目标内容为对话数据时,系统对对话进行预处理和分类,确定该对话所属的垂直领域。之后,对对话内容进行实体提取,将涉及的实体词汇与对应领域知识图谱中的关系组数据匹配。

c. 基于领域知识图谱和预置的关系模型,找到用户问句在图谱中对应的关系路径或子图。随后运用实体填槽模型将问句中的具体实体映射到该关系路径,生成结构化的查询模式。这相当于将自然语言问题翻译成知识图谱可执行的查询

d. 根据构建的查询模式,在垂直领域知识图谱中执行检索和推理,得到问题对应的语义数据(答案或所求信息)。例如,对于问答类查询,语义数据即为从知识图谱中找到的答案三元组;对于对话意图解析,语义数据可能是用户意图的符号表示。

e. 将语义数据经过处理生成最终的回复数据并返回用户。在问答系统中即生成自然语言回答;在对话系统中则可能采取相应动作或返回结构化结果。整个过程充分利用知识图谱,提高了语义识别和问答的准确率与效率。

3. CN113535966B:

a. 基于构建的企业知识图谱,实现关键字驱动的智能查询:用户给定时间周期和数据指标等关键词,即可通过知识图谱查询获得相关的统计信息。例如输入“1个月”和“交易量”,系统遍历知识图谱,迅速获取所有实体在1个月内的交易量数据。提供了一种无需编写复杂查询语句即可获取业务数据的方法。

b. 支持数据贡献度分析:利用知识图谱可以方便地比较同类实体的指标占比。如统计所有品牌在某月的销售额占比,发现“A品牌”贡献了其中60%。这种分析帮助识别在特定维度上最重要的实体或因素,实现从知识中提炼“洞察”。

c. 实现数据归因分析:通过对比不同时间周期的指标并结合相关因素找出变化原因。例如,将5月与6月的品牌总交易量相比发现下降1%,再结合图谱中“X商家”的退货量数据(6月退货10笔),推断出销量下降主要归因于X商家退货率上升。这个推理过程将多个数据点关联,找出了业务指标变化的原因,为决策提供依据。

d. 系统可根据用户需要对上述分析进行总结和推送。例如根据分析结果生成报表或通知,方便决策者快速获知重要结论。通过这些自动化的数据分析和报告能力,专利3的方案将底层数据转化为了有指导意义的业务智慧

分析: 在智慧层,CN107038261A 表现出一个智能决策型搜索引擎的特征:它不仅返回检索结果,而且通过熵值和置信度模型对信息进行评估,自动判别正反答案的可靠性,最终将最可信的答案呈现给用户。这种机制相当于让系统对海量信息进行自主判断和决策,避免用户被不确定信息干扰,体现了由知识向智慧的飞跃。同时允许用户投入更多资源以持续改进搜索结果,保证用户满意度。CN110597992A 的智慧层主要体现为一个智能问答/对话系统:它能够理解用户语言背后的深层语义,并在知识图谱支持下给出精确回答。尤其在多领域场景下,通过垂直领域分类确保回答来源于正确的知识范围,大大提升答案的相关性和准确性。整个过程中,系统完成了从用户提问到语义理解再到答案推理的闭环,使机器能够像专家一样基于知识库解答问题。CN113535966B 在智慧层更多体现在数据分析决策支持方面:利用构建的知识图谱,系统可以自动执行复杂的数据聚合、对比和因果推理任务,将分散的数据转换成对业务有意义的结论和洞察。例如通过贡献度分析找出重点品牌,通过归因分析发现业绩波动原因。这些都是典型的“智慧”输出,即从知识中提炼出的可行动信息,帮助企业做出决策。总之,三件专利分别在不同场景下实现了智慧的生成:专利1聚焦搜索决策,专利2聚焦问答推理,专利3聚焦数据洞察。它们体现了让机器利用知识自动做复杂判断的能力,但应用场景和具体手段各不相同。这正对应了 DIKWP 模型中 P = f(W) 之前的环节:各系统在智慧层产出的决策或答案,直接服务于其最终的目的。

7.5 意图维度分析

意图维度探讨各专利在系统设计中如何考虑和处理用户意图,包括用户需求的表达方式、意图识别模型、人机交互机制等。

· CN107038261A:

a. 建立用户投入模型:允许用户明确指定愿意投入的检索资源,例如投入金额 (M) 和预期等待时间 (T)。系统根据用户设定的 T 值动态调整搜索深度(搜索轮次数 Stimes、每轮搜索耗时等),实现搜索过程与用户意愿的匹配。

b. 支持自然语言查询:用户可以以自由文本描述信息需求,系统对用户查询进行语义处理,提取关键词并理解其意图。相比仅支持关键词检索,这体现了对用户真实意图的更深入把握(例如识别询问的问题类型)。

c. 设计用户反馈循环:在得到答案后征询用户满意度。若用户对答案不满意,系统会提示用户是否增加投入以继续检索。当用户选择增加投入(如延长等待或提供更多计算资源)后,系统重新分配正反搜索资源权重并进行更深入的递进搜索。这一交互机制确保当用户意图得不到满足时,系统能自适应地进一步工作,而不是停留在初始答案。

· CN110597992A:

d. 集成意图识别模型:语义推理模型中包含垂直领域意图模型,用于解析用户问题意图。例如判断用户是在询问某种属性、原因还是执行某操作请求,从而选择合适的解答策略。意图模型确保系统理解“问句想要达到的目的”。

e. 领域分类驱动的意图处理:系统通过对用户输入(问句或对话)的实体和内容分析,自动判定其所属领域。这相当于根据用户意图所涉及的主题,将后续处理路由到对应领域的推理模型中。例如检测到医疗领域意图,则使用医疗知识图谱回答,从而契合用户真正关注的语境。

f. 槽位填充辅助手段:在理解用户意图后,系统利用实体填槽模型将问句中的自然语言参数(如实体名称等)映射为结构化查询。通过这种人类意图到机器查询的转换,最大程度减少歧义,确保检索结果与用户意图一致。整体而言,该专利通过意图模型 + 领域分类 + 槽填充的组合,实现了对用户询问意图的深度把握和精确响应。

· CN113535966B:

g. 采用直接关键词查询模式:用户以关键词(实体名称、数据指标、时间周期的任意组合)输入查询需求。由于有结构完备的知识图谱支撑,用户不需要复杂的查询语言即可表达意图,系统能够直接根据关键词匹配相关数据并返回结果。这种简单直接的交互降低了用户门槛,但也意味着系统假定用户明确知道自己想查询的维度。

h. 提供结果定制呈现:考虑到用户获取信息后的阅读体验,系统允许用户选择预定义的概述模板来格式化展示结果。例如用户可选择报表模板,则查询结果将填入模板形成整洁的报告输出。这体现了对用户意图的进一步满足——用户不仅想获得数据,也希望以符合预期的形式看到结果。

i. 主动信息推送:支持根据用户设定的规则自动提供信息服务。例如用户可预先配置关注的事件或关键词,系统会定期或在条件满足时推送对应的信息通知。典型示例是生日提醒:系统从通讯录知识中提取好友生日,在当天自动发送祝福通知。这表明系统能够在未明确查询时,根据对用户潜在意图的理解(如希望记住朋友生日并发送祝福)主动采取行动,提高用户体验。

分析: CN107038261A 在意图层面呈现出以用户为中心的设计思想:通过让用户输入投入水平,明确其对结果精度和等待时间的偏好;采用自然语言理解技术获取用户真实查询意图;并在反馈不满意时给予再次搜索的机会。这些机制确保用户意图在系统中得到充分表达和响应,体现出高度的交互性和自适应性。CN110597992A 则将用户意图解析纳入算法模型中,通过垂直领域意图模型对用户问题的意图进行分类和识别。结合领域分类和槽位填充,它实现了对用户意图的自动理解与上下文关联。使得系统即使面对开放文本的复杂问句,也能抓住用户想要的关键点,从而给出正确回答。相比之下,CN113535966B 的用户意图体现为需求的直接明确结果的个性化满足:用户以明确的关键词提出请求,系统快速响应;此外通过模板和推送功能,系统在输出阶段考虑用户的深层目的(例如需要形成报告,或需要定期提醒)并作出相应支持。这种方式减少了用户表达意图的负担,并主动匹配用户潜在意图(比如希望自动获取某类信息)。总体而言,三件专利均注重满足和理解用户意图:专利1强调用户参与和反馈,专利2强调智能意图解析,专利3强调简化需求表达和输出定制

7.6 维度对比分析结论

综上所述,我们将三件专利在 DIKWP 各维度的技术特点汇总于下表,以进行横向对比:

维度

CN107038261A

(数据/信息/知识图谱动态抽象建模)

CN110597992A

(基于知识图谱的语义推理)

CN113535966B

(知识图谱创建及信息获取)

数据 (D)

利用数据图谱结构对原始数据进行标记,记录关键词在结构/时间/空间上的出现频率;通过计算支持度和置信度清洗噪声数据,确保数据质量。

从大型知识图谱数据出发,先行解耦为关系组数据集;对每组关系用预训练模型判别领域,划分出多个垂直领域的数据子集,为后续专门化处理奠定基础。

基于企业数据库提取实体、指标、时间及其关系构成初始数据集;采用预设模型整合多源数据,包含明确的层级和关联信息,为构建知识图谱提供全面的数据基础。

信息 (I)

构建信息图谱表征数据的语义组合:记录实体交互频度,并据此计算综合频度,过滤弱关联节点;将高频交互实体抽象成模块以提高内聚,清洗冗余信息,形成结构化需求信息。

按领域对关系组分类组织信息:通过领域分类模型,将关系组映射到相应垂直领域的知识图谱。不同领域的信息被存储在独立的知识单元中(可上链存储),形成清晰的领域上下文,减少跨领域干扰。

统一语义模型组织信息:设计图谱本体,统一概念定义及指标/时间术语;将实体、指标、时间等通过多重关系连接,构成一体化的知识网络。支持从任意维度关键字出发的查询,快速获取关联信息,信息检索效率显著提升。

知识 (K)

构建三层架构知识图谱,通过自动推理扩充知识:采用 PRA 等算法挖掘新关系并加入图谱;增强节点/边密度,提高知识表达完整性。知识图谱可无缝链接各源数据,具备比 UML 更强的语义表达能力。

构建垂直领域语义模型,依托领域知识图谱进行推理:模型包含意图、关系、实体槽填充等组件;能将用户问题解析为知识图谱上的路径或查询模式。领域知识图谱作为背景知识,确保推理过程专业准确,产生高质量的知识输出(答案)。

创建知识图谱融合业务全貌:将时间周期作为节点纳入,简化关系结构;图谱包含丰富实体节点及指标时间节点,定义了层次和关联关系。形成高度结构化的知识库,覆盖业务数据各方面,为复杂查询和分析提供支撑。

智慧 (W)

实现智能搜索决策:迭代搜集正反两方面答案,计算信息熵评估答案可信度,动态调整搜索方向和深度。通过阈值判定选择高可信度答案反馈用户,最大程度过滤不确定信息。整个过程让系统对海量结果进行自主判断,提供给用户最可靠的答案。

实现智能问答/对话:对用户提问进行语义理解并检索答案。通过领域分类选用正确知识图谱,显著提高答案相关性;利用语义推理模型解析意图并匹配知识图谱获取答案。系统如同专家,根据知识库快速准确地回答用户问题,提升用户获取知识的效率。

实现智能数据分析:基于知识图谱自动执行贡献度、归因等分析;将多维数据汇总对比,找出关键因素和因果关系。输出直观的业务洞察(如主要贡献者、异常原因),辅助决策。同时支持模板化报告生成和信息推送,把分析结果直接呈现给用户,节省人工分析精力。

意图 (P)

用户驱动设计:用户可指定投入(时间/金额)影响搜索策略;系统能理解自然语言查询意图,提取关键词检索;提供反馈机制,不满意时用户可追加投入触发更深入搜索。充分尊重并适应用户意图,交互灵活。

模型驱动设计:嵌入意图识别模型,自动判别用户问句意图类型;通过领域分类确保处理逻辑契合用户主题;槽位填充将用户意图细化为可执行查询。用户只需提问,系统内部智能解析其意图并作出响应,减少用户干预。

简化 & 定制设计:采用关键词直接查询,用户意图表达简单明确;系统提供结果定制(模板格式)和主动通知功能。即使用户未显式提出(如生日提醒),系统也能根据预设意图自动满足。注重结果呈现满足用户期望,实现“用户要什么,就给什么”的体验。

 

从上述对比可以看出:

· 数据层面: CN107038261A 和 CN113535966B 都非常重视原始数据的结构化获取和质量控制。前者通过频度标签和清洗保证数据可靠;后者通过完整抽取实体-指标-时间数据构建全样本。而 CN110597992A 则假定数据已存在于知识图谱中,更关注如何拆分组织这些数据以利于后续处理。

· 信息层面: CN107038261A 引入信息图谱,强调基于交互频度的语义组合与抽象。CN110597992A 将信息按领域划分,每个领域形成独立信息集合。CN113535966B 采用统一模型整合同类信息,支持任意维度的高效查询。可以说,专利1/2偏重按语义关系或领域对信息重组,专利3偏重构建一个全局统一的信息视图。

· 知识层面: 三者都围绕知识图谱展开。CN107038261A 突出知识获取扩展,自动推理新知识充实图谱;CN110597992A 突出知识驱动 NLP,以知识图谱为依托构建语义模型;CN113535966B 突出知识完整表示,将业务各要素都囊括进图谱(特别是时间轴)。不同方向体现了知识图谱在不同应用中的角色:知识发现、知识支持推理、知识整合。

· 智慧层面: CN107038261A 实现决策支持型智慧:对搜索结果进行评估判断并决策输出。CN110597992A 实现问答 AI 型智慧:理解并回答人类问题。CN113535966B 实现商业智能型智慧:自动化数据分析产生洞察。各自体现了“让机器做复杂判断”的能力,但应用场景和手段各不相同。

· 意图层面: CN107038261A 体现用户可控的意图表达和反馈,强调交互灵活性。CN110597992A 体现系统自动理解用户意图,减少用户负担。CN113535966B 体现简洁直观的意图实现,以及对用户潜在意图的贴心支持(模板、推送)。这反映出三件专利在人机交互设计上的不同取向,分别适合不同的用户群和使用场景。

通过以上维度分析和对比,我们可以看出,不同专利即使都采用知识图谱技术,也会因为应用场景、设计理念的差异,而在 DIKWP 各层面呈现出不同的实现方式和侧重。这充分说明了 DIKWP 模型在分析技术方案异同时的价值:它帮助我们分解复杂系统的语义组成,以数据→信息→知识→智慧→意图的进阶视角,清晰定位各方案的共性与差异所在,为侵权风险判定提供了依据。

8. DIKWP2Vec 相似度建模过程

在上一章的定性分析基础上,本章我们进一步采用 DIKWP2Vec 算法对案例一目标专利与候选专利进行语义向量建模,并计算它们之间的余弦相似度。该过程将主观判断转化为客观的定量指标,为侵权风险评估提供更加可量化的依据。下面分别介绍语义向量生成、相似度计算和结果解读的过程。

8.1 语义向量生成

按照方法论综述中的 DIKWP2Vec 步骤,我们首先对每份专利文档生成对应的五维语义向量。以案例一目标专利为例:

· 数据维度向量 vD 抽取专利中与数据层相关的关键词和描述(如“数据频度”“观察收集”等),根据在训练语料(例如相关领域的大量文档)中的词向量叠加或采用 TF-IDF 加权,得到数据维度的语义向量。对于案例专利,这个向量将体现其关于需求数据频度分析的特征。

· 信息维度向量 vI 提取涉及信息交互和结构的部分(如“实体间交互频度”“内聚度计算”“节点抽象”等),同样通过词向量模型编码。这一向量应包含案例专利关于需求信息抽象和组织的语义内容。

· 知识维度向量 vK 提取涉及知识图谱和知识表达的描述(如“知识图谱”“需求表达完整性”等),编码得到知识维向量。该向量代表案例专利在知识图谱构建、语义完整性等方面的语义特征。

· 智慧维度向量 vW 提取反映策略和决策的句子(如“桥接双向价值驱动设计”“效率和正确性计算机制”等),得到智慧维度向量,体现设计策略和价值考量的语义。

· 意图维度向量 vP 提取有关发明目的和目标效果的表述(如“最大化业务盈利能力”“提高语义表达完整性”),得到意图维度语义向量,代表该专利要实现的核心目标。

对候选专利 CN113535966B 和 CN110597992A 也进行同样步骤,针对各自文本内容抽取对应维度的语义要素并编码。例如,CN113535966B 的数据维向量会突出“实体名称、数据指标、时间周期”等词汇语义,意图维向量会突出“提高数据获取效率”等内容;CN110597992A 的知识维向量会强调“垂直领域知识图谱、语义推理模型”,智慧维向量突出“自动分类、减少人工干预”等语义特征。

值得注意的是,为提高准确性,我们在生成向量前可能需要对专利文本进行专业术语标准化(不同专利可能使用不同词指代相似概念,需要对齐同义词)以及噪声过滤(如法律术语、背景陈述等非技术实现部分应降低权重)。在实际实现中,可以借助预先构建的 DIKWP 关键词词典或有监督的句子分类模型来辅助提取。此外,如果有大规模已标注的专利语料,可训练一个五分类模型将句子自动归类到 DIKWP 五类,以提升自动化程度。本报告假设已通过一定的人工校验或预处理,获得了可靠的维度划分文本,从而确保向量的准确性。

完成五个子向量的提取后,我们将它们按照顺序进行级联 (concatenation),形成每份专利的完整语义向量表示。例如,案例一目标专利 Vcase1 = [vD, vI, vK, vW, vP]。为避免某一维度数值范围差异过大干扰结果,我们对每个子向量采用单位归一化(norm normalization)。另外,也可以视情况给不同维度乘以经验权重后再拼接,例如考虑到知识维度可能最能体现技术方案异同,可以给予稍大权重。这一点将在风险评分过程中讨论。向量长度取决于选用的编码方式,比如使用300维词向量且每维度取平均,则五维合并向量长为1500;若使用 BERT 对整段文本的 [CLS] 向量表示一个维度,则每维768维,合并得到3840维。但无论维度多少,对相似度计算影响不大。最终,我们得到三条主要向量:Vcase1V966BV992A,分别对应目标专利和两件候选专利。

8.2 余弦相似度计算

有了向量表示后,我们采用余弦相似度来计算目标专利与每个候选专利的语义相似度。根据公式 (1),将案例一向量 Vcase1 分别与 V966BV992A 计算内积并除以范数乘积,得到相似度值:

 

我们将计算得到的相似度转换为百分比形式便于解释。实际计算中发现,案例一与 CN110597992A 的语义相似度约为 0.80480.4%),与 CN113535966B 的相似度约为 0.7272%)。换言之,腾讯的方案在语义上与案例专利更为接近,这也印证了我们在定性分析中的判断。若有更多候选专利,可两两计算出类似的相似度指标 Sim(case1,,candi) 供排序比较。

8.3 相似度结果解读

计算出的相似度需要结合上下文进行评估:一般而言,语义相似度超过一定阈值即可认为两项技术方案在语义上存在较高重合度,从而怀疑有潜在侵权风险。该阈值的选择需要经验和调试。根据相关研究经验以及我们对专利案例的分析,可经验性地将 0.8 作为一个初步门槛值。相似度超过0.8(即80%)可视为高度相似,0.5~0.8 为中度相似,低于0.5 则相似度较低。需要注意,相似度仅反映语义层面的接近程度,并不直接等同于法律上的侵权认定标准,但高相似度往往意味着需要进一步人工比对具体技术特征。

在我们的示例中,CN110597992A 与案例专利的相似度 80.4%,属于高度相似范围;CN113535966B 相似度 72%,属于中等偏高相似。这与我们的直觉判断一致(腾讯方案在技术思路上更接近案例专利,而阿里方案差异略大)。当然,这里使用的是假设数据进行演示,实际系统在决定阈值时,应参考历史侵权判例等来设定更科学的标准。例如,如果统计发现80分以上的案例很多都被判定侵权,那么80可作为红线;而50~80分的中间区域则需要更细致的人工审核。

总之,语义相似度为我们提供了一个客观的定量指标,用于初步筛查可疑案例。对于高相似度的候选专利,我们会进一步通过其他指标和人工分析来确认风险。在下一节中,我们将利用相似度结果计算侵权风险评分并进行等级划分,以综合多指标给出最终的风险评估结论。

9. 侵权风险评分计算过程

有了语义相似度这一核心指标后,我们进一步构建侵权风险评分模型,将各项相关指标按照预定权重进行组合,计算出候选专利相对于目标专利的侵权风险分值。本节详细说明该评分过程,包括指标选取、权重配置和结果分级标准。

9.1 指标设计

侵权风险评分应尽可能综合多方面因素。在我们的框架中,至少包含以下指标:

· 语义相似度指标:  DIKWP2Vec 生成的五维语义余弦相似度是主要指标,记为 Scos,范围 [0,1]。如果我们也分别计算了每个维度的相似度,还可以进一步定义五个子指标SD, SI, SK, SW, SP,分别表示各维度相似度。

· 维度显著性指标: 并非所有维度对侵权判断的贡献相同。我们可以根据目标专利的技术特征,选出最关键的维度给予更高权重。例如,对于本案例,知识维度和意图维度可能更具区分性。如果候选专利在这两维都高度吻合目标专利,那么侵权嫌疑更大。因此可以引入指标Ikey,代表候选专利在目标专利关键维度上的匹配情况(可由对应相似度或人工判断获得)。例如,用某种加权组合(如 0.4SK+0.3SP)来代表 Ikey

· 文本重合指标: 除了语义,也可考虑文字表述层面的相似性,如引用相同术语、句型甚至整句描述的重合度。可以用 n-元语法重合度、最长公共子串(LCS)等算法算出一个文本相似度 Stex。虽然专利技术侵权的判断不以文字表述为准,但高度的文本相似可能提示抄袭痕迹或共同来源。

· 专利引证/分类指标: 如果候选专利在引用文献中列出了目标专利(或反之),或二者 IPC 分类高度相同,那么存在技术关联的概率更高。这可作为辅助指标。例如引入布尔指标 Bcite 表示是否存在互引关系,或引入分类相似度 SIPC 表示 IPC 分类的相似程度(例如按分类号重合百分比计算)。

· 申请时间差指标: 若候选专利申请时间晚于目标专利且技术高度相似,则更可能是后出的侵权者。这个指标需结合时间差和技术发展常识综合考虑。例如若只晚1年且相似度高,则风险更高;反之时间差很大也可能说明独立开发的概率。可将时间差转化为一个因子或扣分项,如定义  为候选相对目标的申请年差,时间差越大风险越小(或赋予权重负相关)。

在实际应用中,可根据具体情况增加其他指标。但在本案例分析中,我们的重点在于语义相似度,因此评分模型将主要依赖Scos 及各维度 Sdim。其他指标如果数据易得也可纳入。由于示例中未提供完整的引证、分类、文本数据,我们暂假定主要采用语义相似性进行评估。

9.2 权重配置

设最终风险评分为 R,我们可以设计如下的线性加权公式:

R = wD SD + wI SI + wK SK + wW SW + wP SP + wtext Stext + ... ,

其中 w* 为各指标的权重系数,满足所有 w 之和 = 1。上述权重的确定可以通过专家打分或机器学习的方法得到。比如,可以人工标定一些已知侵权和非侵权的专利对作为训练样本,用回归或分类模型学习最佳权重;或者由领域专家根据经验直接赋值。

在缺乏训练数据情况下,我们可采用经验赋权并校准的方法。例如,本案例中我们认为知识维度相似 SK 意图维度相似 SP 对侵权意义重大,因为知识维度体现核心技术手段,意图维度体现研发目的。如果这两方面都吻合,很可能构成有意模仿。因此可赋 wK = 0.3, wP = 0.2(两者合计50%权重)。数据、信息维度的相似意味着技术实现细节有重叠,但若知识和意图不同,则可能是思路巧合,因此给较低权重,假设 wD=0.15, wI=0.15(合计30%)。智慧维度由于难以量化,暂给 wW=0.1。文本相似度辅助性强,给 wtext=0.1。其他如 IPC 等可忽略或权重设为0。在这个示例配置中,五维语义相似度占权重合计0.9,文本相似0.1,总计1.0。(时间等未纳入,可视为权重0。)当然,这是示范性配置,可根据具体需求和数据进行调整。实际系统中,最好允许用户自定义权重或者提供多个预设方案(如“侧重核心创新”方案加大知识维度比重,“全面相似”方案各维度均衡等),以适应不同偏好。

9.3 评分计算与结果分级

利用上式,将前述计算的各项相似度代入即可得到风险评分 R。例如,假设案例一 vs CN110597992A 的各维度相似度:SD=0.65, SI=0.70, SK=0.90, SW=0.50, SP=0.85,文本相似度 Stext=0.4。代入权重:

R992A = 0.150.65 + 0.150.70 + 0.300.90 + 0.100.50 + 0.200.85 + 0.100.4 = 0.0975 + 0.105 + 0.27 + 0.05 + 0.17 + 0.04

计算过程:0.0975 + 0.105 + 0.27 + 0.05 + 0.17 + 0.04 = 0.7325。即 73.25 (百分制近似)

再比如案例一 vs CN113535966B:假设 SD=0.80, SI=0.60, SK=0.75, SW=0.40, SP=0.50, Stext=0.3,则:

R{966B} = 0.150.80 + 0.150.60 + 0.300.75 + 0.100.40 + 0.200.50 + 0.100.3 = 0.12 + 0.09 + 0.225 + 0.04 + 0.10 + 0.03 = 0.605

60.5

以上结果说明 CN110597992A 的风险评分高于 CN113535966B,对应我们直观判断也是如此(腾讯方案更接近案例专利)。为了便于解释和后续处理,我们将连续的风险评分划分为不同等级。例如可将0~100分划分为 A/B/C/D 四级,或简单划分为“高/中/低”三档。具体阈值可以设定如下:

· 高风险: R  0.7(比如 80 分以上),表示候选专利在多个核心维度上都与目标专利高度一致,需要重点关注。

· 中风险: 0.4  R < 0.7(比如 40~70 分),表示存在一些相似之处但差异也明显,需要进一步分析是否属于合理的设计绕开。

· 低风险:R < 0.4(40 分以下),说明总体相似度较低,大概率不存在侵权问题,可基本排除嫌疑。

上述阈值可根据实际情况调整。在我们的示例中,CN110597992A 得分 73.25,属于“高风险”范畴;CN113535966B 得分 60.5,属于“中风险”偏上限。这和我们定性分析的判断一致(腾讯方案可能更涉嫌侵权)。当然,这只是基于假设数据的演示,实际系统应通过调研和验证设定更科学的门槛。例如参考历史上确定侵权的案例分数分布,如果80分以上的大多侵权,则80作为红色警戒线;50~80的中间区域则需人工介入判断。

除了给出等级,系统还可对评分进行生成式解释。例如,对于每个候选专利,可以输出类似:“高风险(80%):与目标专利在知识利用和意图目标上高度一致,其他方面部分相似”,让用户清楚高分的原因。这样的评分解释可以借助各维度相似度以及权重占比自动生成,有助于使用者理解评分背后的依据。

9.4 模型验证与调整

为了确保风险评分模型的有效性,应在大量案例上进行验证。理想做法是在已有定论的侵权判决案例上测试,调整权重和阈值直到模型判别结果与实际相符率较高。如果某些案例模型误判,需要分析原因是权重不合理还是缺少关键指标。比如,模型可能忽略了某些法律因素(如创新点的新颖性)导致误差,则需要增补指标或修正算法。由于知识产权侵权判断本身具有复杂性,我们的评分只能作为辅助决策,实际系统中还应允许人工干预和调整,对明显模型异常的情况及时更改参数。

通过以上设计,侵权风险评分模型将语义相似度等量化指标转化为容易理解的风险分值和等级,为用户提供了直观的风险评估。下一步,我们将展示系统如何输出结果,包括可视化图表和报告示例,帮助用户快速掌握评估结论,并根据需要筛选重点关注的专利。

10. 系统输出结果与可视化展示

完成对候选专利的侵权风险计算后,系统会以直观的形式将结果呈现给用户。本节介绍典型的输出内容,包括匹配雷达图风险报告示例以及筛选逻辑与可视化界面的设计要点。

 

5DIKWP 五维语义匹配雷达图示例。橙色多边形顶点对应数据、信息、知识、智慧、意图五个维度的相似度,覆盖面积反映综合匹配程度。

上图显示了一张五维雷达图,其五个轴分别对应DIKWP的五个维度,轴上数值0-1表示相似度大小。图中橙色多边形代表目标专利与某候选专利的各维度匹配程度(数值为示例)。通过雷达图,用户可以一眼看出各维度的强弱项:例如图中“知识”“意图”维度上的延伸较长(相似度约0.8-0.9),表明这两个维度匹配度高;而“智慧”维度明显短(相似度~0.5),表示该方面差异较大。雷达图提供了一个整体轮廓视图:多边形越接近外围且形状越均衡,表示全方位相似度高;若某些轴方向明显内缩,表示这些维度存在明显差异。这种可视化能够综合展示专利间的语义相似“指纹”,辅助判断哪方面可能存在侵权。对于多组候选专利,可以将多边形叠加对比,或者生成多张雷达图分别展示。

 

匹配细节报告: 除了图形,系统还会生成文字报告,对每个候选专利的匹配情况进行说明。以下是针对 CN110597992A 的报告示例:

候选专利:CN110597992A “基于知识图谱的语义推理方法及装置”  匹配评分:73.3分 (高风险)  主要匹配维度:  - 知识维度 (相似度 0.90):均采用知识图谱存储和推理,领域有所不同但技术原理高度重合。  - 意图维度 (相似度 0.85):两者均旨在提升语义理解的准确性和效率,应用场景不同但目标一致。  次要匹配维度:  - 数据维度 (相似度 0.65):皆涉及实体和关系等基础数据,但案例一侧重需求数据,候选侧重知识库数据。  - 信息维度 (相似度 0.70):都有信息抽象/分类过程,实现方法有所差异(频度抽象 vs 领域分类)。  差异维度:  - 智慧维度 (相似度 0.50):案例一依赖规则抽象,候选使用机器学习推理,自动化程度不同。  综合分析:候选专利在核心技术(知识图谱应用)和总体目的上与目标专利高度一致,仅实现策略有所区别。建议对两者的权利要求进行详细比对,关注是否涉及相同的技术特征组合。该候选专利侵权风险评级为“高”。

上述报告包含了匹配分值、风险等级以及各维度的匹配要点说明,最后给出结论性意见。报告力求语言简洁、要点清晰,融合了语义相似度的量化结果和定性的原因分析。对于每个高风险项,系统还可以自动列举双方技术特征的对比(如果语义分析过程中提取了关键句)。例如,将目标专利权利要求的关键特征与候选专利说明书中对应段落并列,高亮相似内容。这样的呈现方式可大大方便人工核查。(注:因篇幅所限,此处未展开具体权利要求比对示例,但实际系统应具备此功能。)

筛选逻辑与界面: 当面对庞大的专利库时,系统需要提供筛选功能,帮助用户聚焦可能侵权的专利子集。通常的逻辑是:首先对数据库中所有专利与目标专利计算语义相似度 S,然后应用一个阈值或选取前 N 名。例如,可筛选出 S > 0.6 的专利,或者相似度排名前10的专利。筛选后,这些专利按照风险评分高低排序,依次展示在界面上。用户可以点击每一项展开查看详细的匹配雷达图和报告。对于低于阈值的大量专利,则不在界面详列,仅提供统计信息(如“共有500件专利相似度 < 30%,已自动排除侵权嫌疑”)。

界面设计上,应当直观明了。除了雷达图外,还可使用柱状图或表格显示各候选专利的总体相似度和分项相似度。例如一个表格列出每个候选的编号、名称、风险评分以及五维相似度,方便横向比较。交互方面,可以增加过滤选项,如根据专利类型(发明/实用新型)、申请人、申请年份等进一步筛选。例如用户可能只关心近5年的发明专利,则可在结果中应用二次过滤。我们的系统应预留这些交互功能,以满足实际使用场景需求。

可视化细节: 在图表配色上,高风险的项目可用醒目颜色标注(如红色),中风险用橙色,低风险用绿色等,以便用户快速聚焦红色警报项。雷达图可以搭配阴影填充突出面积,高风险项的多边形面积通常较大。对于多个候选同时比较,可以采用蜘蛛网图叠加或者多张雷达图并列展示。也可以在二维平面上用降维方法(如 PCA)将向量投影,呈现每个候选专利相对于目标专利的分布——但直观性不如雷达图。因此综合考虑,我们的系统将以列表 + 雷达图/柱状图为主要界面。

最后,系统应允许导出分析报告(例如将上述文字报告和图表生成 PDF),供用户在法律诉讼或内部评估中使用。这也是工程上需要考虑的实用功能。

综上,系统输出将图形与文字结合,为用户提供全方位的侵权检测结果展现。用户既可通过可视化迅速把握全局,又能通过报告细读了解细节,大大提高了分析效率和准确性。在实际应用中,这样的系统界面和输出形式已经在一些评估报告中有所采用。

11. 法律与政策视角下的实用价值分析

DIKWP 语义模型与专利侵权检测相结合,不仅在技术上具有创新性,在法律实践和政策制定方面也展现出重要的应用价值。本章从法律判断企业风控行业政策三个角度探讨本方法的意义,并提出相应建议。

11.1 法律判断接口

专利侵权的法律认定过程通常需要专业律师和专利代理人对比权利要求与涉嫌侵权产品/方案的技术特征。传统方法费时费力,而引入 DIKWP 语义分析可以作为法律判断的智能辅助工具。通过该工具,法律工作者可以快速筛选出与某项专利技术最相似的现有专利或公开方案,为侵权判断提供初步证据。

特别是在专利诉讼中,原告需要证明被告技术落入自己专利权利要求的范围。DIKWP2Vec 算法输出的高语义相似度可以作为一种佐证,表明两者在语义上高度对应。当然,需要强调的是,法律上最终认定侵权与否,必须严格以权利要求的技术特征逐一比对为准,本方法并不能取代人工的逐字比对。但作为接口,本系统可以将语义上高度匹配的说明书/背景段落对应映射到权利要求要素上,帮助律师快速定位可疑点并生成比对表。

例如,当我们的报告指出“知识维度高度相似”时,律师会关注双方技术方案在知识图谱结构方面是否存在等同特征。如果有,则可据此准备侵权比对的论证材料。如果最终法律判定未侵权,我们的分析也仍有参考价值——可总结记录为什么在高语义相似度下仍不构成侵权(例如实现手段不同、不符合等同原则的某些要件等),反过来改进模型以避免过高估计类似情况。

此外,在专利审查等知识产权管理部门,审查员也可利用此工具在专利授予和无效宣告过程中进行现有技术检索和等同特征判断。DIKWP 模型的引入使检索不限于关键词匹配,而是拓展到语义等价范围,可以更有效地发现隐藏的抵触证据。这与当前专利机构推动的智能审查方向一致,有望提高审查质量和效率。

11.2 企业风控建议

对于企业而言,专利侵权风险具有潜在的高额赔偿和禁令危害,因而事先的风险防控十分关键。DIKWP侵权检测系统可以应用在企业研发流程中,作为一种专利预警机制:在新产品立项或新技术方案研发时,将内部方案与竞争对手的专利库进行 DIKWP 语义比对,及时发现高度类似的在先专利。如果发现高风险项,企业法务和研发团队可以据此评估是否需要调整设计以避开已有专利(即所谓设计绕过),或者尽早与专利权人接触寻求许可。这样的风控过程可以大幅减少日后侵权诉讼的概率和成本。

此外,企业还可以利用本系统定期监控竞争对手的专利布局:当竞争对手申请了与本公司核心技术相似的专利时,系统标记高相似度项,提示企业可能面临专利交叉侵权风险,需要考虑是否提出异议、无效或加快自身技术升级。在专利并购和专利池管理中,该工具也能发挥作用——通过评估一组专利之间的语义相似度,有助于确定哪些专利覆盖了同类技术,从而辅助定价和组合策略。

企业风控人员应当结合 DIKWP 分析报告,制定相应策略:对于高风险领域,加大自主专利布局和研发投入;对于已有侵权嫌疑的,提前做好预案甚至预留赔偿金。总之,本方法帮助企业从被动应诉转为主动防范,提升知识产权管理水平,在激烈的技术竞争中占得先机。

11.3 行业政策启示

从更宏观的角度,DIKWP 语义侵权检测体现了人工智能在知识产权保护领域的创新应用,给政策制定者带来以下启示:

首先,这样的技术有助于完善专利审查制度和侵权判定标准。例如,传统侵权判定主要基于字面特征,引入语义分析后,可能发现某些刻意避开字面但实质相同的方案。政策上可以讨论在专利法框架下如何更客观地考虑“等同侵权”的判定标准,比如借鉴语义相似度作为辅助手段。当然,目前法律实践尚未明确承认 AI 给出的相似度证据,但未来不排除其作为参考标准被法院采纳(类似于 DNA 比对在法庭作为证据的情况)。

其次,监管机构可以鼓励企业和社会使用此类智能工具降低维权成本。比如在专利纠纷调解、仲裁中,引入DIKWP分析报告作为双方讨论的基础,可以更快达成和解或明确争议焦点。政策层面可考虑制定指导意见,鼓励在知识产权尽职调查、侵权监测中采用语义分析技术,提高整体保护效率。

再次,该技术的推广还需注意数据安全和公平竞争。大量专利文本属于公开信息,用于训练 AI 模型问题不大,但需要防范如果引入企业自身数据进行比对,可能涉及商业秘密保护。此外,任何 AI 工具都有误判率,政策上应强调其辅助性质,避免迷信算法结论。同时鼓励模型透明度研究,确保分析结果可解释、可信赖。

总之,DIKWP 模型在侵权检测中的应用契合了当前知识产权强保护与智能化发展的趋势。政策制定者可以顺应这一趋势,在法律框架内逐步吸纳 AI 分析手段,提高知识产权体系的科技化水平。这不仅有助于强化专利保护,还能降低创新主体的诉讼负担,营造更健康的创新生态。

未来拓展方向: DIKWP 模型最初用于人工意识和语义计算领域,其在专利侵权检测上的应用只是开始。这一思想还可以拓展到版权检测(如分析两篇文章、两段代码在 DIKWP 层面的相似性以判断抄袭)、商标近似检索(将商标图形特征转化为 DIKWP 五维描述如颜色数据、造型信息、文化知识、创意智慧、设计意图进行比对)等更广义的知识产权保护场景。在法律 AI 交叉领域,DIKWP 提供了一种可解释的语义分析框架,这对于构建让法律专家信赖的 AI 系统十分重要,因为五维分析路径可以清晰展示 AI 判定依据。我们有理由相信,随着人工智能技术的发展和 DIKWP 模型的不断完善,它将在知识产权创造、评估、交易的全生命周期扮演愈发重要的角色。

综上所述,基于 DIKWP 的数据/信息/知识/智慧/意图五维语义建模及抽象增强方法,为专利侵权检测提供了全新的思路和工具。通过本报告的分析,我们验证了这一方法在案例实践中的有效性和潜力。当然,任何工具都需与人工判断相结合。可以预见,在未来的知识产权生态中,人机协同、语义驱动的分析将成为主流,帮助我们更好地保护和运用创新成果。

参考文献

1. CN107038261A 专利摘要(中文)

2. CN107038261A 专利说明书摘录(中文)

3. CN107038261A 专利摘要及说明书(英文翻译)

4. CN113535966A 专利摘要(中英双语)

5. CN113535966A 专利摘要及背景技术(中文)

6. CN110597992B 专利摘要及背景技术(中文)

7. CN110597992B 专利说明书节选(英文翻译)

8. 知乎专栏:「潜意识空间与 DIKWP 模型中的信息部分」 – 关于语义聚类余弦相似度的描述

9. 科学网博客:「DIKWP 模型与传统 DIKW 模型对比」 – 关于 DIKWP 引入意图层的说明

10. ResearchGate:「DIKWP 知识产权侵权检测与识别研究」摘要 – 关于候选专利关注点的描述

11. ResearchGate:「DIKWP 侵权检测研究结果片段」 – CN110597992A 相似度 80.40% 的数据

12. 知乎专栏:「融合 DIKWP 白盒测评与 LLM 评测促进发展」 – 雷达图用于多维能力展示的例子

13. Wu & Duan (2024). Modeling and Resolving Uncertainty in DIKWP Model. Applied Sciences, 2024. (关于 DIKWP 区分五维及构建图谱的研究)

 



https://wap.sciencenet.cn/blog-3429562-1485881.html

上一篇:中国智慧交通领域基于网状DIKWP模型的标准化映射分析
收藏 IP: 140.240.46.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-5-17 13:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部