切换到桌面版

Bibliometrix:零基础绘制知识图谱

说明:本博客与微信公众号“林墨”同步更新,所有内容均为原创,可授权转载请扫码关注“林墨”公众号。

Bibliometrix是一个新开发的R语言工具包,可用来帮助研究人员进行数据收集、数据分析、数据可视化。此外,文中还有其他绘制知识图谱的工具。

步一 / Indiana University

注:图片展示了Bibliometrix工具的功能模型图,该图片来自参考文献[1]

Journal of Informetrics上发表了一篇新论文,论文的作者制作了一个R语言包,这一工具包含数据收集、数据分析和数据可视化三个主要功能。Bibliometrix工具的说明和下载地址如下:http://www.bibliometrix.org

数据收集功能

数据检索:这一功能主要基于Web ofScienceScopus两大数据库。用户可以根据自己的需要进行相应的数据检索。

数据装载与转化:这一功能主要将待处理数据进行处理,并转化为可供R程序读入的数据格式。

数据分析功能

描述性统计Bibliometrix可以对文献题录数据进行多种描述性统计,例如:数据集内论文总数信息、作者频次分布、作者与第一作者信息、篇均作者数、出版年、作者机构信息、作者机构国别信息、出版物信息、关键词信息与被引信息等等。作者层面的其他简单计算,例如h指数等等,也可以在此工具中实现。这些描述性统计的结果还可以进行相应的整理和简单的可视化。

网络分析:基于文献题录数据,Bibliometrix可以构建相应的网络,例如耦合网络(bibliographiccoupling network)、共引网络(co-citationnetwork)、合著网络(co-authorship network)和共词网络(co-word network)等。对于这些网络的分析可以更好地挖掘文献之间的内在联系,有利于进行更深层次的知识发现。

标准化处理Bibliometrix的标准化处理功能主要用于上述几种网络的形成和计算中。目前这一工具支持的标准化处理主要使用以下几种测度:邻近性指标(proximity index[译者注]如概率邻近指标probabilisticaffinityindex,用于表示一实体对另一实体的依赖程度,参见[2])、雅克比系数(Jaccardindex)和余弦系数等等。

数据可视化功能

Bibliometrix提供数据的可视化功能。可视化过程中用户可以选择不同的布局算法(layout algorithm),也可以进行一些历时分析。另外,Bibliometrix在可视化这一环节上还和VOSviewer有一定的连接性:用户可以将VOSviewer输出的数据导入Bibliometrix进行可视化。

示例数据

Bibliometrix工具包的示例数据包含了19852015年间管理学和商学等领域的文献题录数据。该数据可从以下链接获取:http://www.bibliometrix.org/datasets/bibliometricmanagementbusiness pa.txt

基于这笔数据,Bibliometrix逐一展示了其包含的方法和功能,供用户学习和参考。

相关知识图谱工具

1. CitNetExplorer:这是一个基于Java开发的应用,由欧洲学者vanEckWaltman开发,主要功能是对引文网络进行分析和可视化。利用CitNetExplorer,研究人员可以对某一学科或领域进行历时分析,可以挖掘学科或领域的核心文献,也可以了解一位科学家的出版物情况及其对其他科学家著作的影响。链接:http://www.citnetexplorer.nl/

2. VOSviewerVOSviewer也是一个Java应用,同样由van EckWaltman开发。使用这一工具,研究人员可以更好地实现大数据规模下的可视化需求。链接:http://www.vosviewer.com/

3. SciMATSciMaT是一项开源工具,它可以对知识库及其实体进行管理,也可以对科学知识图谱进行分析和可视化。链接:http://sci2s.ugr.es/scimat/

4. BibExcelBibExcel旨在帮助研究人员进行文献计量分析或者同样格式下其他类型数据的计量分析。这一工具与Microsoft Excel有着较好的连接性。不过,BibExcel目前在可视化方面做得还比较有限。链接:http://homepage.univie.ac.at/juan.gorraiz/bibexcel/

5. Science ofScience (Sci2) Tool:这一免费工具由印第安纳大学开发。在文献数据的处理方面,它不仅支持时序分析、地理空间位置分析、主题分析和网络分析,还可以进行文献数据和相应网络的可视化。链接:https://sci2.cns.iu.edu/user/index.php

6. CiteSpace:这是一项基于Java开发的应用,由美国德雷塞尔大学(Drexel University)的华人学者陈超美团队开发,主要用于分析科学文献的趋势,并进行可视化。链接:http://cluster.cis.drexel.edu/~cchen/citespace/

7. CITAN:这一R工具包可以对来自于Scopus数据库的文献题录数据进行一定的清洗和预处理,还可以利用处理后的数据计算一些常见的文献计量指标值。然而,这一数据只能处理Scopus格式的数据,而且不能进行更为复杂的文献计量分析(如共引分析、耦合分析、题名与摘要用词抽取等)。链接:https://cran.r-project.org/web/packages/CITAN/index.html

8. H-indexCalculator:这一工具可以基于ClarivateAnalytics Web of Science提供的题录数据计算h指数。


[1] Aria, M., & Cuccurullo, C. (2017).Bibliometrix:An R-tool for comprehensive science mapping analysis. Journal of Informetrics,11(4), 959-975.

[2] van Eck, N. J., & Waltman, L.(2009). How tonormalize cooccurrence data? An analysis of some well-knownsimilarity measures.Journal of theAssociation for Information Science and Technology, 60(8),1635–1651.





推荐人

武夷山, 姚伟, 沈律, 赵凤光, 周健
京ICP备14006957 Copyright @ 2007
中国科学报社 All Rights Reserved
桌面版