ChaomeiChen的个人博客分享 http://blog.sciencenet.cn/u/ChaomeiChen

博文

CiteSpace 的设计和分析原理

已有 20714 次阅读 2016-8-22 04:01 |个人分类:科学前沿图谱|系统分类:论文交流

这是我为2016年9月10-11号高等教育出版社在北京举办的科学前沿图谱研讨会写的一篇短文,也做了一个相关报告。介绍CiteSpace的设计和分析原理。

本文将包括在由高等教育出版社出版论的文集《科学知识图谱:前沿与实践》中。请暂用下面信息引用:

陈超美(2016)CiteSpace 的分析原理。科学知识图谱:前沿与实践。北京,高等教育出版社。



CiteSpace 的分析原理

Chaomei Chen

College of Computing and Informatics

Drexel University

陈超美(2016)CiteSpace 的分析原理。科学知识图谱:前沿与实践。北京,高等教育出版社。


不断增长的科学,技术,和人文知识是人类的宝贵资产。新发现能扩展和深化现有的知识,也能淘汰原有的甚至是曾经辉煌的认识。不论是活跃在科学研究前沿的对科学家,学者,或学生,还是每个关心科学对我们的社会产生什么样的影响朋友,亲属,他们最关心的问题也许形形色色,但是都面临着一个最核心最更本的问题:我们是否了解和如何了解一个知识领域的来龙去脉,它的现状,和今后的发展前景。

传统的研究和培养模式中,研究人员需要不断地寻找相关文献来建立自己对学术领域的系统认识。比如该领域中主要研究问题是什么,哪些是奠基式的研究,哪些是里程碑式的研究,哪些是最关键的理论,方法和技巧,哪些是当前最严峻的挑战,等等等等。回答这些问题的过程是个高度抽象的过程。这个过程需要不断地分析,演绎,归纳。任何时间段里出现的文献都可能起到关键作用,任何视角都有可能带来新的灵感,任何细节都可能成为下一个突破的开端。

一个专家之所以成为专家在很大程度上取决于他对一个领域或者一个领域中几个研究问题不但有透彻的了解和密切地关注着最新的动向,最重要的他有其独到的见解。每个学术领域发展到一定阶段都会有它的学术综述和系统性地总结,回顾和展望。随着领域自身的发展自然会出现新的综述和新的评价。通常学术综述或者由本领域知名专家来撰写,或者由初出茅庐的学者撰写而由此跨入新一代专家的行列。一个系统综述可以帮助我们梳理我们对一个学术领域的认识,可以从众说纷纭的学术文献中理出另人兴奋的头绪。

我们对系统性学术综述的依赖并非总能如愿以尝。一个新兴领域就可能没有它的系统综述。一个高歌猛进的领域里,任何现有的综述都可能很快过时。即使一个领域里有足够的没过时的系统综述,我们还是很有可能发现撰写综述的专家对我们所感兴趣的问题一带而过或者完全忽略。在这种情况下,我们很容易想到两种选择:一个是盼着能有个新综述及时出现,而且新出现的综述正好对我们的研究兴趣有同样的兴趣。另一个是自己动手,量体裁衣,做出一个完全针对我们自己的研究问题的系统综述。

自己动手有很多好处。我们可以自己掌握综述的进度,范围,深浅等等。我们还可以自己掌握综述的频率。但是自己动手的最大障隘是如何完成这一高度复杂而抽象的过程,如何完成从树木到森林的飞跃,如何从窥一斑而见全豹的飞跃。完成如此飞跃的关键在于如何对纷至沓来的学术文献作出准确,公正,和尽可能全面的鉴别。作出这样的鉴别需要过硬的专业知识和丰富的经验。除了专家本人,还有什么渠道能让我们源源不断地获取这类知识?

科学文献本身提供了大量的信息。学术论文中的引文体现了专家学者们对现有文献的选择。不论这种选择是出于何种动机及其具体原因,选择本身提供的信息就很有价值。科学文献可以大致氛围三类。一类属于经典文献,一类属于昙花一现的文献。这里经典文献的定义很广,只要一篇论文不断地被引用,那它就属于经典文献,并非只有爱因斯坦的论文才能成为经典文献。昙花一现的文献占了科学文献整体中的绝大多数,他们出现几乎立刻被学者们所遗忘,甚至根本没有引起任何人的关注。第三类文献往往是问题的关键。这些文献从茫茫论文的海洋中产生了飞跃,给人们对科学知识的认识中留下了明确的印记。引文分析有少的弱点和不足,但是它所研究的信息是难以替代的。我们从学者的阐述论证中会学到很多很多,而我们从学术同仁对其优劣的描述和评判中能学到的会更多更深刻。更重要的是,学术同仁作出其评判时所依据的逻辑推理和演绎过程。如果我们能把来自不同学派和不同视角的这种学术鉴定予以综合归纳,那我们将会极大地减少专家撰写的系统综述中在所难免的个人偏见。这里所致的个人偏见没有任何贬义,这是人类认识,兴趣,经验,和观念的必然结果。

CiteSpace的设计是在这个前提下给学者和任何对科学知识前沿的发展感兴趣的人们提供一个自己动手时所需要的工具[1, 2]CiteSpace的目的是利用学术领域里专家学者们在他们论文中对学术文献所做的选择来作为我们自己鉴别学术文献潜力的基础[3-5]。我们有什么理由相信如果把形形色色的论文中的引文分拣,提炼,整合到一起,我们就能得到我们做综述所需要的信息呢?

托马斯·库恩的科学革命的结构给CiteSpace提供了哲学基础[6]。库恩认为,科学的推进是建立在科学革命上的一个往复无穷的过程。这个过程中会出现一个又一个的科学革命,人们的认识通过科学革命而接纳新的观点。而新观点的重要性在于对我们所观察的对象能否作出更另人信服的解释。库恩的科学革命是新旧科学范式的交替和兴衰。科学认识中会出现危机,而危机所带来的新旧范式的转换都将在学术文献里留下印记。库恩的理论给我们提供了一个具有指导意义的框架,如果科学进程真像库恩所洞察的那样,那我们就应该能从科学文献中找出范式兴衰的足迹。

CiteSpace的另一个设计灵感来源于一个叫做结构洞的理论。这个理论原本是芝加哥大学罗纳德·Burt在研究社会网络和社会价值时提出的[7, 8]。他研究的问题是人们在社会网络中的位置和他们的主意和创意的质量是否有什么联系。他发现结构洞概念提供了这样的证据。在一个完全连通的社交网络中,每个人和所有的人都直接联系。因此,各种信息可以随意地从一个人传播到另一个人。在这样的网络中,不存在结构洞。在另一类也是更常见的网络中,社交网络中不是每个人和所有其他人都有直接联系,如果如此,便有了结构洞,即结构上的不完备。这种情况下,信息在网络中的流动受到其结构上的约束。每个人在网络中所能接触到的信息内容不再相同,传递和接受的时间也会出现差别。Burt发现,位于结构洞周围的人往往具有更大的优势。而这一优势往往又可以归结为他们所接触到的各类不同信息导致了比其他人更大的想像空间。这个问题归结为我们能接触到信息,意见或观点在多大程度上是广谱的和多样化的。

社交网络中的结构洞理论可以扩展到其它类型的网络,尤其是引文网络。Burt的结构洞和库恩的范式转换在CiteSpace中得到了具体体现。库恩的范式体现为一个又一个时间段所出现的聚类。聚类的主导色彩揭示了他们兴盛的年代。伯特的结构洞连接了不同聚类。我们可以从中更深入地了解一个聚类如何连接到另一个几乎完全独立的聚类,以及哪个具体文献在范式转换中起到了关键作用。结构洞的思想在CiteSpace中体现为寻找具有高度中介中心性的节点。这样我们不在拘泥于具体论文的局部贡献,而放眼于他们在学术领域的整体发展中的作用。这恰恰是系统性学术综述所追求的飞跃。

节点的中介中心性能引导我们尽快地发现有潜力的工作和新颖的想法。在现实中,仅仅有好的想法往往可能还不够。人们需要做出自己的判断和决策。CiteSpace的发展中的到的第3个启迪来自最优信息觅食理论。该理论最初是由Pirolli提出来解释信息搜索中人们是如何做出决定的[10]。最佳信息觅食理论本身是最佳觅食理论的延伸。当我们搜索信息时,我们需要做出一系列的决定,取舍。所有这些决定都服务于一个简单的目的:我们需要付出最少的损耗来获得最大的效益,也就是广义的盈利最大化。毋庸置疑,这些考虑都应限制在道德伦理法律等等的约束范畴之内。根据这一理论,我们在觅食过程的所有决定,有意识或无意识地,取决于如何将预期的增益和潜在风险之比最大化。高风险往往是相对的,新例证可能会减少我们最初对风险作出的评估。如果我们发现已经有学者在研究相同或类似的问题,对其他学者来说研究同一问题的风险将会大大降低。我们在以前的研究中确实发现了这种效应。高风险的想法出版后通常会引来更多的研究。最初的尝试导致了大家对效益/风险之比进行重新评估,从而使在新环境下更容易地作出决定。CiteSpace借鉴的第4个重要概念是如何对这种效应的强度和持久性作出明确地衡量。Kleinberg2002年提出了探测频率突增的算法[9]。如果一篇论文的引文频次突然呈现急速增长,那么最稳妥的解释就是这篇论文切中了学术领域这个复杂系统中的某个要害部位。知识网络中这样的节点通常揭示一项很有潜力或很让人感兴趣的工作。

如果我们过多地注重局部细节,我们可能会舍本逐末以至忽视全局的结构和动态。CiteSpace通过计算机算法和交互式可视化把人们从一些费时费力的负担中解脱出来,使得我们可以把我们的精力集中在更重要更关键的分析问题,抽象思维,和创造性思维上。基于引文所体现的信息不仅能使我们更了解过去,还有可能让我们对未来有更明确的期待。

网络的模块化是对其整体结构的一个全局性量度。局部结构的变化可能会引起全局的改变,但是也同样可能不会引起任何全局上的改变。前者将成为经典,而后者将昙花一现。在CiteSpace的设计中,我们通过监测知识系统如何对新论文可能作出的反应来探测新论文潜力。科学知识本身是一个自适应复杂系统。新发现和新想法可能会改变我们的信念和行为。它的输入和输出不是线性相关。如果一篇新论文可以看作是自适应复杂系统所收到的信号,如果我们测量系统的模块化,模块化的改变或没有改变会给我们了解这篇论文的潜力提供非常有价值的信息。这是CiteSpace所遵循的结构变异理论的基础[11, 12]

CiteSpace作为一款可视化分析工具,献给致力于自己动手积极追踪学术领域发展动态的人们。

参考文献及推荐阅读:

  1. Chen, C., CiteSpace II: Detecting and visualizing emerging trends and transientpatterns in scientific literature. Journal of the American Society forInformation Science and Technology, 2006. 57(3):p. 359-377.

  2. Chen , C., Searching for intellectual turning points: Progressive Knowledge DomainVisualization. Proc. Natl. Acad. Sci. USA, 2004. 101(Suppl.): p. 5303-5310.

  3. Small, H., Cocitation in the scientific literature: A new measure of therelationship between two documents. Journal of the American Society for Information Science, 1973. 24: p.265-269.

  4. Garfield, E., Citation indexes for science: A new dimension in documentation throughassociation of ideas. Science, 1955. 122(3159): p. 108-111.

  5. Kessler, M.M., Bibliographic coupling between scientific papers. AmericanDocumentation, 1963. 14: p. 10-25.

  6. Kuhn, T.S., The Structure of Scientific Revolutions. 1962, Chicago: Universityof Chicago Press.

  7. Burt, R.S., Structural holes and good ideas. American Journal of Sociology,2004. 110(2): p. 349-399.

  8. Burt, R.S., Structural Holes: The Social Structure of Competition. 1992,Cambridge, Massachusetts: Harvard University Press.

  9. Kleinberg, J., Bursty and hierarchical structure in streams, in Proceedings of the 8th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining. 2002, ACMPress: Edmonton, Alberta, Canada. p. 91-101.

  10. Pirolli, P., Information Foraging Theory: AdaptiveInteraction with Information. 2007, Oxford, England: Oxford UniversityPress.

  11. Chen, C., Predictive effects of structural variationon citation counts. Journal of the American Society for Information Scienceand Technology, 2012. 63(3): p.431-449.

  12. Chen, C., The Fitness of Information: Quantitative Assessments of CriticalEvidence. 2014: Wiley.




https://wap.sciencenet.cn/blog-496649-997864.html

上一篇:CiteSpace 4.5.R1
下一篇:Science Mapping / Domain Visualization: 合作者联络图
收藏 IP: 144.118.64.*| 热度|

4 李杰 张琳 王国华 scienceusa

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 08:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部