delphi1987的个人博客分享 http://blog.sciencenet.cn/u/delphi1987

博文

【推荐一篇论文】科技文献副主题词抽取及其在分面检索中的应用

已有 4340 次阅读 2015-1-29 21:34 |个人分类:论文交流|系统分类:论文交流

胡昌平,林鑫,陈果 情报学报,2014(8)


这是我参与同门林博士研究一起做的论文。数据分析、论文撰写主要是林博士在做,我在前期参与了思路确立和策略制定。他告诉我,这篇论文投到情报学报后,15天左右直接收到录用通知。这让我非常之吃惊,我之前投的几篇情报学报文章,从投出到录用基本没有低于四五个月的。


这个研究的起源,是林博士研究“分面式检索”。思路来源于我们看文献时,除了按主题分外,如果文章多,还会分为是“理论探讨”、“综述进展”、“技术实现”、“模型构建”之类的。这种关于文献的类型,现有的数据库中没有提供,但是挺有用。比如,我研究“数字图书馆”,那搜“数字图书馆”出的论文中,要是告诉我哪些是综述,哪些是模型,哪些是调研,那该多好? 那用什么办法解决呢,最初的想法就是看标题里面的词语。这办法靠不靠谱,最后怎么用,就形成林博士这篇文章了。


推荐这篇文章,是因为我觉得他的做法很有代表性。如何把一个简单的想法做成“研究”?


我们之前都在百度网页搜索部共事,做搜索产品的策略设计和结果评估。这篇文章和我在情报学报2014年第一期做的《科技论文关键词特征及其对共词分析的影响》,都是用工作时的思路:

如何解决某个问题?

首先找到实际数据,制定标注策略,进行人工标注(如果数据量太大,就随机抽样一批);

其次对标注结果进行统计,找出主要问题的几个方面,哪些影响面大;哪些不能容忍;哪些容易解决;

然后筛出重要的、不能容忍的、容易解决的,根据标注数据中反映的问题,找到最直接的策略方案;

最后,方案实现,并且根据同样的标注策略抽数据评估;如果还要继续深入,重复以上过程。


根据二八定律,往往可以用比较简单的方法解决主要问题。


这个思路归结为:用数据说话+抓主要问题。我们在后来的博士研究中,发现工作中的这个思路在情报学研究中也挺好用,虽然做出来的结果比较朴实和“低端”,但是能解决一些问题,产出一些不那么心虚的东西。

一些师弟师妹入门做研究的时候,喜欢用两种方式:圈定一个选题范围然后冥思苦想憋创意;或者学一种新技术新工具然后依葫芦画瓢找新范围做。相比而言,我觉得老老实实找些数据,人工标一标,对于问题会有新的、让人觉得心里踏实的认识。之前百度的产品策略设计师,无论经验多丰富,思维多灵活,必须过关的基本功就是标数据,以保持对用户需求问题的敏感性,贴吧、知道、文库、框计算等等各种产品思路都是从标数据中来的。记得武夷山老师在情报学报卷首语曾经提过一个问题,大意是现在情报学研究中,计算机化的信息处理比以前不知道要先进多少,但我们对情报的认识是否更深入、敏感度是否真的在进步?这个确实值得深思。



【摘要】本文研究了科技文献副主题词的自动抽取问题,并对其在分面检索中的应用进行了探索。为实现副主题词的自动标引,本文提出了以标题作为抽取数据源、基于规则进行抽取的实现方法,并以图情领域文献进行了实验。结果显示,基于规则的抽取方法在召回率和准确率方面表现良好,均超过了90%;但仅以标题作为抽取数据源会导致召回率偏低,仅有49.9%的文献能抽取出副主题词。为探索副主题词在分面检索中的应用,本文以图情领域文献为例构建了原型系统,从使用效果来,副主题词作为独立的检索点价值不大,但和其他检索点配合使用则可以更贴切地表达用户需求,作为分面则能在帮助用户进行探索式检索以及结果筛选方面发挥重要作用。本研究的局限性包括仅采用标题作为副主题词抽取数据源,导致召回率不高;在副主题词抽取时未考虑同时抽取相应的主题词等。


【下载地址】http://d.g.wanfangdata.com.cn/Periodical_qbxb201408008.aspx 







https://wap.sciencenet.cn/blog-821540-863887.html

上一篇:科研领域关键词网络的结构特征与启示-基于图情学科的实证研究
下一篇:领域知识分析中的关键词选择方法研究——一种以学科为背景的全局
收藏 IP: 59.172.176.*| 热度|

3 毛进 章成志 psystudyliu

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 13:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部