|||
【这是东北农业大学的翟洪江老师在使用bicomb过程中历经磨难后得到的一些经验,总结后发给了我,我觉得应当跟大家共享一下,所采用的方法不一定是最好的,但是确实提供了解决问题的一种思路,欢迎大家讨论。】
最近做了一个关于文件计量的研究。由于本人没有任何基础,所以做起来比较难。在网上收集了很多资料,发现崔雷老师的BICOMB2软件很适合我的研究。第一,这个软件针对于中文数据制作,我的数据主要来自于cnki;第二,我已经将所以论文的数据导入到EXCEL之中,这个软件对格式的自定义功能可以让我处理这些数据,不必在从cnki上重新下数据。由于本人没有学习过文献计量学的软件,所有用起来比较难,尽管有崔雷老师的指导,但是仍然做了很多次试验才操作成功。为了让如我这样笨的菜鸟少走弯路,我写下这个案例,供大家参考。本案例只适合于没有任何文献计量学基础的人使用。
我的文件结构如下图(案例中文献是我在cnki中主题,输入“文献计量学”,被引前150的文章)。我要做的是作者的共现分析。
由于BICOMB不支持EXCEL格式(好像所有的文献计量学软件都不支持),我们要把它转化成TXT文件,但直接另存为txt文件可不可以呢?答案是否定的。在转化之前我们要制作节点。要制作两个节点:一个是文章节点,它要使软件能区分哪些作者是一个文章出现的;一个是字段节点,抽取作者字段从哪里开始。
单独将作者这一列加入到新的表中,在前面加一列,写上抽取字段节点字符,似乎写什么字符都可以,我是按照cnki里面给的代表作者的字符写的。
下一步制作文章节点。稍微有些复杂。在c列输入2、4、6、8……等差数列,在d列输入1、3、5、7……等差数列,在E列输入文章节点字符,我输入的字符就是“文章节点”。(c、d、e列输入比较简单,只输入前两行,然后点住单元格右下角“黑方点”双机即可。但也不排除有人不会用EXCEL)
将d列和e列整体选中,剪切,将d列数字与c列数字相接。
然后以c列为主要关键字进行排序。
排列完如下图。
C列和d列换一下。
在e列插入函数=CONCATENATE(A1,B1,C1,),这个函数是将所选单元格中的字符串合并,可以学习一下这个函数的相关说明。E列的数据就是我们最后想要的处理数据了。
将e列的数据选中,复制到一个新建的txt文件中。
下面要做的是自定义格式。打开BICOMB2,点“管理员”选项卡。点“格式定义”右端的增加按钮,输入你定义的名称,我定义的名称为“作者共现分析”,格式类型一定要选择txt格式。
在格式定义中选“作者共现分析”,选中“文章节点”,点击右侧“修改”按钮,在节点1中输入“文章节点”,取值方法描述选择“单值、单行”就可以。这个就是Excel中定义的文章节点。
选中“作者”,点击右侧“修改”按钮,在节点1中输入“Author-作者:”。这个也是在Excel中设定的抽取字段节点。抽取方法选择“多值,分隔符;”;这个很重要,要根据你数据是什么样的选择取值方法。详细参看软件使用说明书。
这些都定义完以后,我们就可按照软件的正常程序进行分析了。点击项目选项卡,增加一个项目,格式类型选择刚才定义的类型。
点击提取选项卡,选择“作者分析”txt文档,点击提取,完成提取,就可以查看数据了。以后的分析按软件说明书进行即可。
字频统计
共现矩阵生成。
导出矩阵
小结:Excel数据转化成软件可使用的数据关键在设定文章节点和抽取字段节点,而且这两个节点不能在同一行(我试了很多次,同一行作者会统计很多很多)。第二个关键处在格式定义要定义好,一定要读明白说明书再定义。
【报告的撰写过程中涉及了科学计量学的知识,笔者求助了中国医科大学的雷军教授、中国科学技术信息研究所的化柏林副研究员、中国科学院武汉文献情报中心吕鹏辉老师、湖北经济学院的熊沂老师、理学院的吴秋风老师等人,他们在互不相识的情况下给予了无私的帮助,更重要的是在交流的过程中体验了学科间合作的快乐,在此向他们表示感谢。
【崔雷说:我有些困惑翟老师为什么在开始从CNKI下载文献记录的时候,为什么不采用notefirst(XML)格式或者自定义(txt)格式,而是抽取出作者后又转成了Excel文件,但是这又恰好给我们提供一个如何处理天然是Excel格式文件的处理办法】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-15 16:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社