|||
不知道WOS中这个DE字段算是什么,是关键词吗?怎么来的?没有仔细考证,曾经在WOS网页上粗略地找过字段描述,似乎没有找到确切的答案,但是很多人希望能统计分析这个在SCI数据库中唯一直接表示记录文本内容的标识。其实,分析这个内容标识符效果并不好,我发现在我检索的文献记录的集合中,至少有1/3的记录没有这个字段。
如果非要处理的话,可以观察一下DE字段的格式:在下载后的文献记录中,DE字段是排成一行,中间用“;”分割的,BICOMB一般只能把分成不同行的同一字段算作来自于同一篇文章,比如:
CF:
asads
regegfrfd
如果是:
CF:asads;regegfrfd
就只能当做一条记录来处理,这样就不能统计同一字段两个条目的共同出现次数了。
后来,我发现在CNKI格式中,对于《作者》字段可以处理这种排成一行的条目,所以,我可以用CNKI来处理WOS下载下来的数据,也就是说,在建立项目时候,采用CNKI格式,输入的待处理的记录则是来自于WOS的,偷梁换柱啊,只不过是把CNKI格式中《作者》项进行一下修改,把标识符,分隔符按照WOS记录中的情况设定好就可以了。
需要说明的是,WOS中的DE字段很麻烦,一个是分隔符“;”后面有空格,这就使得软件处理后,很多DE词前面有空格,统计结果就不准了。还有,就是DE字段中,第一个DE的首字母大写,其余的首字母又小写。我的做法是在输入BIOCOMB之前,Editpad Lite(一个小文本处理软件)把所有的字母都变成大写,然后,把所有的“;+空格 ”替换为“;”(无空格)。当然,用写字板,记事本,都可以,word似乎有格式符号镶嵌在里面,不太适合。很多文献管理软件,比如noteexpress,endnot等等,都可以用于整理文献记录的格式,作为文本内容深入分析的预处理。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 00:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社