刘耀分享 http://blog.sciencenet.cn/u/liuysd 中国科学技术信息研究所 研究员 硕士生导师

博文

基于内容与形式交互的图书馆资源组织语义化方法研究

已有 5822 次阅读 2010-11-11 10:01 |个人分类:科研笔记|系统分类:论文交流| 信息组织, 图书馆资源, 语义化, 方法研究

原文发表于《情报理论与实践》2010年10期

●刘  耀1 ,穗志方2 ,胡永伟2 ,赵庆亮2(1.中国科学技术信息研究所,北京 1000382.北京大学 计算语言学研究所,北京 100871)

 

基于内容与形式交互的图书馆资源组织语义化方法研究* 

 

 

  要:网络环境下的图书馆资源语义化已是大势所趋,本文在对国内外相关研究进行深入分析的基础上,依据“书目原理”与“共轭控制理论”,提出图书馆资源语义化应分为“内容语义化”和“组织语义化”两个层次的设想,并认为图书馆资源组织语义化,可以看作图书馆资源语义标注的浅层标注,是内容语义化与形式语义化交互实现的过程,提出了基于NLP理论与方法,结合传统图书馆资源组织方式(分类法、主题词法)与领域本体构建技术,搭建辅助构建及标注一体化平台,进而实现语义元数据体系构建与资源组织语义化过程同步实施的解决方案,这一思想与方法的提出与实现,可以有效地促进图书馆资源语义化进程,使语义自动标注与知识服务成为可能。

关键词:信息资源;语义化;语义标注;知识工程

 

 

图书馆存储了大量的文献资源。如何帮助用户全面、快速、准确地发现蕴涵在文献中的知识,从不同的知识维度展示这些知识、发现文献所承载的知识之间的各种关联,进而辅助用户更高效地进行知识创新,这是实现图书馆下一代文献服务的跨越式发展,从文献信息检索服务上升到文献的知识服务的关键问题。因此,网络环境下的图书馆资源组织语义化已是大势所趋。所谓语义化,就是选择适合的语义标签,通过资源中标签的内容反映出资源的语义特征,从而将内容转换成计算机可识别的形式,使计算机在一定程度上实现对资源内容的理解和掌握。

 

1概述

在图书资源的语义化问题上,本研究依据“书目原理”(将某一文献信息浓缩为某一款目,将其作为这一文献信息的替代品,然后将款目组织排列成书目成为文献信息群的替代品,进而通过书目对文献信息进行揭示、识别和检索最终达到对海量文献信息有效控制的目的)与“共轭控制理论”[1-2](需要控制而又未能控制的事物甲与可控制的事物乙之间具有相似或相关的关系,施控者通过控制事物乙,达到控制事物甲的目的)提出“内容语义化”和“组织语义化”两个层次。内容语义化,即利用自然语言处理技术对文献资源进行语义标注,实现计算机对文献内容的理解与掌握,其对语义化的解释前提是:每个词的意义是什么,词的意义如何结合成句子的意义,句子的意义如何构成篇章的意义等。文献内容丰富多样,浩若烟海,实现内容语义化虽然是资源语义化的终级目标,但就目前的自然语言处理技术来看,基本上难以实现。而知识服务又必须要求我们实现资源的结构化与语义化,因此,可将其视为“事物甲”。

组织语义化强调的是通过各类标签表示的组织形式上的语义化,其对语义化的解释前提是概念及概念关系的结构化与网络化。由于当前情报检索语言已达到相当高的控制水平[3],我们可以通过自然语言处理技术结合高密度知识单元对其进行重构与改造,使其具备一定的语义结构,进而实现资源组织的语义化,因此,可将其视为“事物乙”。那么,能否通过控制“事物乙”达到控制“事物甲”的目标呢?这是由内容语义化与形式语义化的关系来决定的。其实,“内容语义化”和“组织语义化”并不是独立的,是根据内容的语义去选择标签的(语义标注),这时标签的语义也就代表了内容的语义。笔者认为图书馆资源组织语义化,可以看作图书馆资源语义标注的浅层标注,是内容语义化与形式语义化交互实现的过程,因此,笔者提出了“基于内容与形式交互的图书馆资源组织语义化方法研究”的设想,其中涉及的两个关键问题是:语义元数据的生成和语义标注。

2 国内外相关研究现状

语义元数据[3](也称作标签本体 Tag Ontologies)提供数据的语义信息,是图书馆资源组织语义化的重要工具,在对仅仅为人所能阅读信息转换为机器可处理的信息中,起着极为重要的作用。这也使得近年来给数据赋予其语义信息的工作,即语义元数据生成,得到了越来越多研究人员的关注。

语义元数据生成技术与领域知识库或领域本体构建技术,从技术实现来看基本上是一致的,方法与理念也相对成熟,本研究也进行了艰苦的探索与研究,已取得大量成果 [4-8]

另外一个关键问题是语义标注,语义标注的方法目前来说有3类:人工标注;领域文档类型定义(DTD)和文档模式进行概念映射和标注;利用词汇语义分析进行标注[9]。手工语义元数据生成耗费大量的时间且包含大量错误,这使得一些工作集中在研发标注工具来简化手工语义元数据生成的工作。为了降低语义元数据生成过程中人的参与,一些半自动的辅助技术被应用到上述标注工具中。如CREAM 系统的扩展研究中的S_CREAM[10]PANKOw [11]等方法。为了彻底地自动化整个标注过程,大量的工作集中在设计自动语义元数据生成模型与方法上面。如Huang等人提出了一个基于Web的自动主题元数据生成系统[12]YangLee提出了一种自动生成网页的语义元数据的方法[13]ADingli等人提出了一个叫做Armadillo的框架[14]HGraubitz等人展示了DIAsDEM 框架[15]JLi展示了一个基于依存语法的将句子进行语义标注并转化为RDF样式的机器学习方法[16]Dill等人描述了一个在大规模语料里面进行语义标注的工程——semTag[17]

通过对以上工作进行分析,不难发现,许多研究存在内容语义化与组织语义化概念模糊的问题,即将组织语义化等同于内容语义化(内容的语义化过程,过度依赖自然语言处理研究的突破),由于理论上的局限,导致资源语义化实现的结果不理想。国外部分学者也认识到了这一点,如 SpeciaMotta [18]Hak Lae Kim [19]等提出了整合民俗分类法和本体,以丰富标签的语义表达功能的解决方案。民俗分类法的强大在于它可以聚合所有个人感兴趣的、被标签标注的信息。这对于网络信息组织来说具有一定的优势,但对于图书馆资源组织来说就太过于随意了。因此,本研究提出基于NLP理论与方法,结合传统图书馆资源组织方式(分类法、主题词法)与领域本体构建技术,构建语义元数据体系,搭建辅助构建及标注一体化平台,进而实现体系构建与资源组织语义化过程的同步实施的理论与方法。

3  需要解决的关键问题

 1)开发辅助构建平台。研发面向知识密集型文本片段的自然语言分析技术,构建语义元数据辅助构建平台。

2)研究语义标注技术。开发基于语义元数据的中文语义标注技术,构建辅助平台,自动或半自动实现文献的语义标注。

3) 研究标签数据本身的描述深度和传统组织资源的协同性。当前语义元数据(标签本体)的研究还处于初级阶段,标签数据本身的描述深度和传统组织资源的协同性研究也是重点内容,需要进一步深化并相互借鉴融合,使其更加丰富并更具有适应性。其中主要包括:标签数量与语义标注质量之间的关系研究、组织语义化质量与内容语义化程度的关系研究等内容。

 

4思路与方法

利用自然语言处理(NLP)技术和机器学习方法对已有公认领域知识,如专业叙词表、专业辞典、专业教材或权威著作等进行重构利用,构建领域本体的基础上,开发中文文献资源语义标注技术,对相关文献进行语义标注,并在大量内容相对语义化的基础上,结合传统组织资源(叙词表等),通过机器学习等方法,生成初始语义元数据,然后在辅助平台的帮助下实现图书馆资源组织语义化过程与语义元数据体系的构建同步进行,并将语义标注文献与语义索引分别存储。流程与结构见图1

 

1)数据基础建设。利用已有研究成果,对选定文献进行词性切分与标注,并结合领域语义词典,实现文献资源的专业知识标注 [20]

2)面向知识密集型文本片段的自然语言分析技术研究。利用综合型语言知识库,结合统计技术,设计并实面向知识密集型文本片段的自然语言文本分析技术。通过在语法规则中结合语义信息,在句法分析的同时获得句法成分之间的语义限制信息。并对谓语中心词及其主要配价成分进行语义角色的标注,获得句子的浅层格框架,从而实现对知识密集型文本片段的自然语言部分分析和理解[21]

3)知识密集型文本片段的风格特征的表示、获取及应用。通过对专业教材、专著及百科全书的释义文本进行术语识别和浅层分析,学习表示领域概念关系的语言表示模式。进而,将这些语言表示模式汇集起来形成知识密集型文本的风格特征。下一步,将根据这些知识密集型文本片段的风格特征,并结合图书馆文献资源传统组织方式的结构标记集,从广泛存在的文本资源中选择知识密集型文本片段,作为获取领域新知识的来源,进而构建训练语料库[22]

4)研究语义标注技术。基于标签数据描述深度协同性研究,使用语义索引来存储语义标注的结果。语义索引的主要思想是,不按照文档来进行索引,而是对不同粒度的文本片段单独进行索引,并在索引中加入指示其粒度和语义信息的域。一个文本最主要的信息被保存在3个域中:第一是文本粒度,主要分为三级(篇章、段落和句子);第二是文本片段的内容;第三是文本片段的语义。

5)开发辅助构建平台。研发面向知识密集型文本片段的自然语言分析技术,构建语义元数据辅助构建平台[23]

利用主题词表的概念做本体的概念节点,并保留基本语义关系。主要是纵向关系,如心肌炎是上位是心血管疾病,下位是病毒性心肌炎等。

利用专业词典切分标注文献资源。提供领域切分标注语料,揭示术语的真实分布,为语义计算提供数据基础。

利用教材专著等确定概念间横向语义关系。如疾病的关系涉及到疾病的发病机理、诊断、治疗、鉴别诊断、用药、预后等关系均可以由教材及专著中获得。

利用本体技术构建立体网状语义结构,生成概念间其他语义关系。如利用类的属性设置功能将生物化学物品类设定为疾病类的治疗属性,这样生物化学物品就被赋予了药物的语义,与疾病之间就构成了治疗关系。

6)人机协作的语义关系自动提取机制的优化。本研究中人机协作机制的特点在于:通过人机协作,一方面,人类专家对机器学习的结果进行校对;另一方面,在校对过程中所用到的人类知识也被机器逐渐地吸收,进而在人机协作的过程中,语义关系的自动提取机制被不断地完善和优化。                                     

 

5结束语

本文提出了内容语义化与组织语义化的区别对待的理论与方法,明确内容语义化与组织语义化的关系,可以使资源语义化分阶段分层次实施;依据书目原理和共轭控制理论,将目标锁定在语义元数据体系构建上,使在自然语言处理技术不太成熟的情况下,也能大幅度提高资源语义化标注的自动化程度,使组织语义化快速实现成为可能;开发基于语义元数据的自动标注技术,实现了中文文献的半自动辅助语义标注,为加速实现了中文资源的语义标注进程提供了技术保障。资源的加工方式决定了其提供服务的方式,该方法的实现与实施,可以有效地促进图书馆资源语义化进程。使语义标注加工与知识服务成为可能。

不足之处:本文中开发的标注技术只是在实验系统中得到了实现,需要进一步应用到大型文献服务系统中进行验证与完善。另外,标签数据本身的描述深度和传统组织资源的协同性研究也需进一步深化,特别是标签数量与语义标注质量之间的关系研究,对于语义自动标注工作来说,显得尤其重要。□

 

参考文献

[1] 李金,等.管理学原理[M].北京:北京工业大学出版社,2004:316.

[2] 刘耀.网络传播技术控制的共扼控制模式研究[J].情报理论与实践,20095):90-94.

[3] 张琪玉.积极为自然语言与情报检索语言的结合创造条件[J].图书馆杂志, 1999(9):7-9.

[4]韩先培,赵军.基于Wikipedia的语义元数据生成[J]. 中文信息学报, 2OO9, 23(2): 108-114.

[5]刘耀,穗志方.领域Ontology概念描述体系构建方法研究[J].大学图书馆学报,2006(5)28-33.

[6]刘耀,穗志方,胡永伟.领域Ontology自动构建研究[J]. 北京邮电大学学报, 2006(Z1)65-69 .

[7]LIU Yao,SUI Zhifang. On method and automatic construction theory of domain ontology based on depended text[C]// International Conference on Innovative Computing, Information and Control, 200663-66.

[8] LIU  Yao, CHEN  Xuefei, SUI Zhifang. Study on evolution of domain ontology[C]// Second International Conference on Innovative Computing, Information and Control, 2007:1-4.

[9] 张晓林.Semantic Web与基于语义的网络信息检索[J].情报学报,200221(8)413-420.

[10] HANDSCHUH S, et al. S-CREAM-Semi-automatic CREAtion of metadata [C]//13th International Conference, EKAW 2002 Sigüenza, Spain, 2OO2:358372

[11]CIMIANO Pet alTowards the self annotating Web[C]// FELDMAN S Iet al. Proceedings of WWW,2004462-471

[12] CHIE CHUNG HUANG, et al. Using a Web based categorization approach to generate thematic metadata from texts[J].ACM Transactions on Asian Language Information Processing,2OO4,3(3):19O-212

[13] YANG H-C LEE C-H Automatic metadata generation for Web pages using a text mining approach[C]//International workshop on Chal1enges in web Information Retrieva1 and Integration2OO5186-194

[14] DINGLI A,et al. Automatic semantic annotation using unsupervsed information extract on and integration[C]// GENNARI Jet alProceedings K-CAP, 2003

[15]GRAUBITZ Het al Semantic tagging of domain-specific text documents with diasdem[C]// SAAKE Get alProceedings of DBFusi0n 2OO1USAACM20O161-72

[16] LI Jet al Learning to generate semantic annotation for domain specific sentences[C]// GIL Yet a1 Proceedings of K-CAP,2OO1:44-57

[17]DILL Set al A case for automated largescale semantic annotation[J] Web semanticsscienceservices and agents on the W0rld Wide Web2OO31(1)115-132

[18] SPECIALUCIA MOTTA EIntegrating folksonomies with the semantic Web[C]//European Semantic WebConference2007:624-639

[19] HAK LAE KIM, et al. The state of the art in tag ontologies: a semantic model for tagging and folksonomies[C]// In International Conference on Dublin Core and Metadata Applications, 2008.

[20] 刘耀,段慧明,.中医药古文献语料库设计与开发研究[J].中文信息学报,2008(4)24-30.

[21] SUI Zhifang, LIU Yao, HU Yongwei. Extracting hyponymy relation between Chinese terms based on term types’commonality[J]. ICIC Express Letters,2009,3(4): 1233-1238.

[22] 刘耀,穗志方,等.中医药本体概念描述体系的自动构建研究[J].现代图书情报技术, 2008(5):21-26.

[23] LIU Yao, SUI Zhifang, et al. Research on automatic construction of medical ontology[C]// International Conference on Biomedical Engineering and Computer Science, 2010.

 

 

作者简介:刘耀,男,1972年生,副研究员,博士,博士后。

穗志方,女,1970年生,博士,北京大学信息科学技术学院计算语言学研究所教授,主要从事知识工程与中文信息处理方向研究。

胡永伟,男,1983年生,北京大学信息科学技术学院硕士研究生,研究方向:自然语言处理。

赵庆亮,男,1985年生,北京大学信息科学技术学院硕士研究生,研究方向:自然语言处理。

 



*本文得到国家973项目(项目编号:2007CB512601),国家科技支撑计划项目(2006BAH03B06),国家自然基金项目(项目编号:60873156)的支持。





https://wap.sciencenet.cn/blog-5573-382607.html

上一篇:百变教授
下一篇:真的需要直面民生了
收藏 IP: .*| 热度|

1 化柏林

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 14:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部