hanhongqi的个人博客分享 http://blog.sciencenet.cn/u/hanhongqi

博文

赠送给图情专业学生做科研的新年礼物:文献元数据解析工具

已有 851 次阅读 2023-12-29 16:43 |个人分类:技术工具|系统分类:博客资讯

文献元数据解析工具简介

本工具采用Python开发,可以将Wos of Science(wos)、万方和知网检索结果导出的文本文件中的论文核心元数据信息解析出来,且对作者姓名进行了消歧,形成合作网络分析的基础数据,将结果保存为csv格式的文档,方便研究者做进一步处理。其中wos导出的格式为其特有的格式,万方和知网导出的是Refworks格式。本工具暂不支持其它类型的格式解析,如有特殊需要可以通过邮件联系。

为了简化操作,将所有代码采用pyinstaller打包为单个文件形式的exe文件,用户下载后可直接使用,不必安装Python环境。目前发布的版本是Windows环境下的,没有提供Linux环境下的。

说明:生成的工具在发布前经过360杀毒软件检测,请放心使用。

具体操作步骤如下:

1、下载解析工具

百度网盘下载解析工具。下载地址为链接:https://pan.baidu.com/s/1zhQ05HhrEkhr4KFq9cbczw?pwd=sjd8 。将解析工具下载到一个文件夹(例如d:\a),下面均以该文件夹为例来说明。其中wos解析工具包含两个文件:wosmain.exe、disp_ndresult.exe;refworks解析工具包含两个文件:refworksmain.exe、disp_ndresult.exe。需要注意的是,如果同时使用两个工具,不要把它们放置在一个文件夹中,可以分别存放。

wosmain.exe用来解析wos特定格式的文本文件。refworksmain.exe用来解析万方和知网导出的Refworks格式文本文件。解析的结果保存到d:\a下的data文件夹、nd_result文件夹中。

两个工具操作基本相同,区别在于一个是对英文论文元数据解析,一个是对中文论文元数据解析。

2、下载或拷贝需要解析的文本文件

对于wos:将Web of science中检索结果下载的文本格式的所有文件拷贝到d:\a。wos下载的文件名一般以savedrecs开头、扩展名为txt。

对于refworks:将导出的文本文件拷贝到d:\a。万方导出的文件名中一般包含@WanFangdata字样,例如2023-11-20下午4-20-04@WanFangdata.txt;而知网导出的文件名一般以CNKI开始,例如CNKI-20231019153243674.txt

3、执行解析工具

在windows窗口模式,点击wosmain.exe或refworksmain.exe可以解析,但比较好的方法是进入到命令行模式。

windows图标键+r,然后输入cmd到命令行模式,进入工具保存的文件夹d:\a,命令为cd d:\a,运行wosmain或refworksmain,然后等待解析完成。需要注意的是,pyinstaller打包的单个文件形式的exe启动速度比较慢(通常会1分钟到3分钟左右,跟机器配置有关),这是因为pyinstaller会在这一段时间中将一些依赖文件写入到一个临时的文件夹。这种慢只是启动时的速度慢,不是运行后的速度慢。未来如有好的编译打包工具,将更新网盘中的版本。

如果一切顺利,将会在d:\a文件夹下生成d:\a\datad:\a\nd_result两个文件夹。其中,data文件夹下存放了解析后生成的papers.csv(论文元数据),以及orgs.csv(机构列表)、country.csv(国家列表)、coauthors.csv(合著作者表,可以用作科学合作网络分析的数据)、author_info.csv(作者信息表,存放了未消歧作者id与论文的对应关系)。csv文件中每行两个不同类型数据之间采用制表符(TAB)分隔。nd_result文件夹下存放了姓名消歧后的结果,包含两类文件,author1_results存放了只有单篇论文而不需要消歧的作者,可能包含很多作者,而abc_results.txt存放了姓名“abc”的消歧结果,例如张伟_results.txt表示张伟的消歧结果,一个示例如下。

张伟_0:P_84,P_29
张伟_1:P_82,P_27,P_31,P_83,P_30

第一行表示第一个“张伟”,他/她的两篇论文为P_84和P_29,84和29为论文的id。第二行表示第二个张伟,同样,冒号后面是他/她的论文。

4、检查著者消歧结果

利用提供的disp_ndresult.exe工具可以列出某个姓名(例如GU,X或张伟)的消歧结果,以及每个作者对应的论文基本情况,帮助使用者判断消歧的结果是否正确。调用的格式为:

wos:
disp_ndresult -n GU,X

refworks:
disp_ndresult -n 张伟

受数据质量和算法本身制约,本工具并不能保证消歧结果的完全正确,如有错误,用户可以在进一步利用前进行人工修改。

5、工具服务支持

本工具由北京灵程科技有限公司开发和提供服务支持。

本工具目前只有Windows版本,只能支持Web of science导出英文论文元数据文本数据的解析(不支持引文解析),或万方、知网导出的Refworks格式中文文献元数据文本的解析,支持最大约20万条数据处理(与机器内存有关),有其它英文、中文文献处理需求或超过数据处理规模的需定制,我们的算法能支持千万条级别论文数据的快速姓名消歧,具体需求请通过邮件联系。

尚未注册获得工具使用权时,本工具只能处理2000条左右数据!注册邮箱:skillfulprogrammer@163.com,需同时发送代码及用户信息才能获取注册码。

本工具对因学术用途需要的学生免费,请在注册时提供学生证照片,说明主要用途。







https://wap.sciencenet.cn/blog-460603-1415837.html

上一篇:[转载]国际三大标准化组织及国际标准中的英文缩写
收藏 IP: 123.123.223.*| 热度|

1 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 06:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部