两篇专题文章:有关本体及其在文本语义分类中应用方面的
已有 6765 次阅读
2011-3-28 15:44
|个人分类:研究论文|系统分类:论文交流|
WordNet同义词典, SUMO本体, 映射动机, 映射模型, 映射实例
文本分类是目前国内外理论研究的热点领域,在信息检索、数据挖掘、垃圾邮件过滤、数字图书馆等领域具有广泛的应用。随着新一代语义Web的出现和人们对网络信息资源语义分类的需求,基于关键词加权重的向量空间模型表征文本的分类方法逐渐呈现出一些问题,如忽略词间重要语义信息,不能解决同义词、多义词、词间上下位关系等问题;在对海量文献分类时,向量空间维度过高,出现内存不足,分类速度慢的问题等,这些问题的出现给国内外同行在文本分类领域的研究带来新的挑战和研究视角,促进文本分类新技术和新方法不断涌现。
在这样的大背景下,针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开深入的研究,我们有幸申请到国家社科基金一般项目“海量网络学术文献自动分类研究(项目编号:10BTQ047)”和教育部人文社科一般项目“基于本体集成的文本分类关键技术研究(项目编号:09YJA870019)”。
在课题基金的资助下,我们在“现代图书情报技术”做了一个专题,笔者有幸在导师的指导下贡献了两篇核心文章。这两篇文章相辅相成 缺一不可。第一篇文章“WordNet与SUMO本体之间的映射机制研究”是第二篇文章“基于SUMO和WordNet本体集成的文本分类模型研究”的基础,第二篇文章是第一篇文章的拓展和延伸。下面我把这两篇文章粘贴出来,供大家分享。
《WordNet与SUMO本体之间的映射机制研究》
王效岳 胡泽文 白如江
(发表于《现代图书情报技术》2011年第1期)
文章针对本体概念与自然语言词汇之间存在普遍性与特殊性的矛盾,以WordNet同义词典和SUMO本体为研究对象,详细分析两者之间的映射动机,给出自然语言词汇、WordNet同义集和SUMO本体概念之间的映射模型,并深入分析WordNet同义集与SUMO本体概念之间的映射实例,以便更好地利用WordNet同义词典与SUMO本体概念之间的映射关系去解决本体概念与自然语言词汇之间的矛盾,促进本体更广泛地应用于智能检索、语义分类、数据挖掘等领域。
文章下载地址:
WordNet与SUMO本体之间的映射机制研究 .pdf
《基于SUMO和WordNet本体集成的文本分类模型研究》
胡泽文 王效岳 白如江
(发表于《现代图书情报技术》2011年第1期)
文章以SUMO和WordNet本体库为研究对象,提出一种基于SUMO和WordNet本体集成的文本分类模型,该模型主要利用WordNet同义词集与SUMO本体概念之间的映射关系,对SUMO和WordNet本体库进行集成,形成涵盖WordNet同义词集与SUMO本体概念一一映射关系的集成本体库,然后基于集成本体库将文档——词向量空间中的词条映射成本体中相应的概念,形成文档——概念向量空间进行文本自动分类。该方法能够大幅度降低向量空间维度,增强特征的通用性,改善特征词对文档的贡献程度,达到提高分类器准确率的目的。
https://wap.sciencenet.cn/blog-458986-427199.html
上一篇:
1998—2008年国内外本体应用研究计量分析及可视化下一篇:
以“发SCI或SSCI论文”为荣是否真的好?