崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

在BICOMB中如何处理WOS中的关键词

已有 12324 次阅读 2010-8-24 11:44 |个人分类:休闲|系统分类:论文交流| Science, 文本挖掘, 软件, Web

不知道WOS中这个DE字段算是什么,是关键词吗?怎么来的?没有仔细考证,曾经在WOS网页上粗略地找过字段描述,似乎没有找到确切的答案,但是很多人希望能统计分析这个在SCI数据库中唯一直接表示记录文本内容的标识。其实,分析这个内容标识符效果并不好,我发现在我检索的文献记录的集合中,至少有1/3的记录没有这个字段。

如果非要处理的话,可以观察一下DE字段的格式:在下载后的文献记录中,DE字段是排成一行,中间用“;”分割的,BICOMB一般只能把分成不同行的同一字段算作来自于同一篇文章,比如:

CF:

asads

regegfrfd

如果是:

CF:asads;regegfrfd

就只能当做一条记录来处理,这样就不能统计同一字段两个条目的共同出现次数了。

后来,我发现在CNKI格式中,对于《作者》字段可以处理这种排成一行的条目,所以,我可以用CNKI来处理WOS下载下来的数据,也就是说,在建立项目时候,采用CNKI格式,输入的待处理的记录则是来自于WOS的,偷梁换柱啊,只不过是把CNKI格式中《作者》项进行一下修改,把标识符,分隔符按照WOS记录中的情况设定好就可以了。

需要说明的是,WOS中的DE字段很麻烦,一个是分隔符“;”后面有空格,这就使得软件处理后,很多DE词前面有空格,统计结果就不准了。还有,就是DE字段中,第一个DE的首字母大写,其余的首字母又小写。我的做法是在输入BIOCOMB之前,Editpad Lite(一个小文本处理软件)把所有的字母都变成大写,然后,把所有的“;+空格 ”替换为“;”(无空格)。当然,用写字板,记事本,都可以,word似乎有格式符号镶嵌在里面,不太适合。很多文献管理软件,比如noteexpress,endnot等等,都可以用于整理文献记录的格式,作为文本内容深入分析的预处理。

 



https://wap.sciencenet.cn/blog-82196-355856.html

上一篇:写英文论文的心理障碍
下一篇:岁月流逝
收藏 IP: .*| 热度|

0

发表评论 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 00:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部