昨天,一位朋友推荐我看一篇文章:Publication metrics and success on the academic job market,发表在去年的Current Biology上。我隐隐约约记得曾经在什么地方看过这篇文章的一些内容。在网上找了找,终于找到了一些。不过,待我来重新读这篇文章的原文全文,还是有一些新的感受的。下面先看看这篇文章吧。
这篇文章采用机器学习的方法来预测,谁将成为下一个PI。作者还做了一个模型,放在网上(www.pipredictor.com),任何人都可以用来计算一下他们成为PI的可能性。为了精确量化某位作者是否可以,以及何时可成为PI,研究采集了25604个可识别的独立作者的数据,用200多个有关论文产出的度量指标来进行比对。结果表明,一名科研工作者是否能成为PI,主要还是能通过他们的发表记录进行预测,甚至只需要考虑前几年的出版情况。
为了量化各出版物特征独立于其他混杂变量的影响,作者们开发了一个统计模型。这个模型对于预测一个人是否成为PI以及要花多长时间成为PI具有相对较高的预测精度。其中有一个最小的模型,只使用了五个最具预测功能的参数,仍然具有显著的预测力。正如预期,一个人如果具有更多第一作者的论文,或者高影响因子杂志论文较多,将更容易成为PI。此外,他们具有较高的h指数,这也证实了之前有关h指数可预测科学家是否算成功的说法。然而,实际引文数量这个指标,与杂志影响因子相比,可预测性要小一些。这表明,出版物的感知质量(即杂志的影响因子)是比论文的实际质量(即引用数)权重更大一些。由于一篇文章的被引文数量与杂志的影响因子有一定的相关性,因此采用将引文数量除以影响因子的办法来消除这种影响,用被引用数/IF来度量。
看到这里,我想到了自己之前写的一篇博文:杂志影响因子与我何干?文章水平评价另类探讨。其中,我谈到了这样一个策略:首先检索出目标杂志同期发表所有文章的被引用次数(采用web of science很容易获取)并计算平均值,然后将目标论文的引用次数除于这个平均值,就是该篇论文的得分。这个得分表面上看是表示该论文在当期杂志上的排名,本质上却是表达了在某一具体的专业领域论文受到实际关注的程度,也就应该代表了该论文的“水平”。“被引用数/IF”这个参数与我提出的算法有些相似,但我的那个参数更准确一些,详细情况,可参阅那篇博文。
在这个研究中,被引用数/影响因子在一个线性模型中是排列第四的预测参数,位列影响因子、出版物数量和性别之后。因此得出结论,招聘委员会也考虑了在低影响因子期刊中所发表的好文章。同时也发现,许多成为PI的科学家从未在高影响因子期刊中发表文章。为了更好地了解这些作者是如何做到让自己成为PI的,文章作者将已经成为PI但却在非常低的影响因子(低于所有非PI作者的75%)刊物上发表文章的作者单独分成一组进行分析,结果发现,这些作者比那些没有成为PI的人,他们以第一作者发表文章的增速是未成为PI人的两倍,这表明有更多的第一作者文章,能够弥补对高影响因子文章的缺乏。看来,刚开始起步的研究人员,灌水文章也是有用的。
有更多第一或第二作者文章的作者更容易成为PI,而有更多中间作者(非第一、第二作者)对成为PI没有什么帮助,除非这些文章的影响因子非常高。此外,如果只是暴多合作者论文中的中间作者,成为PI的可能性更小。合作者数量与成为PI的可能性之间有很小的负相关关系,表明合作者数量对第一作者还是有一定的副作用。几乎根据所有的指标,在其职业生涯的第一年,PI的表现就与那些最终离开学术界的人有所不同,其中约有一半的作者在他们发表论文的七年之内成为PI。熬成PI时间不同的人他们发表论文的行为也有差异。超过七年才成为PI的人所发表文章的引用情况比更快成为PI的人要多,说明在低影响因子的杂志上发表重要论文也可以成为PI,但这条路的时间显然要更长一些。
成为PI,还有一个因素,是其就读大学的排名,大学排名也与许多其他参数高度相关的。然而,大学排名作为预测是否成为PI是独立于其他杂志参数的。另外,PI而不是非PI会在其职业生涯的前五年会为他们大学排名的排名做出贡献,这表明他们在一所大学做博士后(或合作)比它们完成博士学位的时候要做得好。较长时间才获得PI与大学排名下滑的曲线表明,平均而言来自排名更高机构的人成为PI要早于来自较低排名的机构。好的大学会吸引更优秀的人,因此能产生更多PI。任何大学的排名都与一些非发表参数相关(例如一些软技能),排名高的大学名称会让申请者的简历看起来更好。
从性别来说,男性成为PI的概率要大得多。即使发表论文的情况相同,男性成为PI的可能性也要大得多。
总之,要成为PI,期刊影响因子、出版物数量和性别比论文本身的质量更重要。当然,文章作者也认识到,这个模型得到的是相关性,而不是因果关系。不过,我认为这个相关性是可以反映因果关系的,真实体现了目前的学术晋升状况。但是,我要说这篇文章其实并没有什么意义,这是一个多此一举的研究。为什么这么说呢?因为,一个研究人员是否能晋级到更高级职位,本来就受限于一个人为标准,这个标准其实大家都非常清楚,那就是依据期刊影响因子、h-指数、作为重要作者的论文数量(在中国,如果做一个类似的研究,肯定含通讯作者)、性别、就读大学的情况等等,所有指标都是预料之中的,因此文章所得出的结论只是吻合了我们的人为标准而已。文章中还谈到的,文章的质量不高,可以用数量来弥补;做得好的人,在开始职业生涯后七年就能成为PI,这也与我们的常识是符合的。
上周,科学网对科研人员排名问题进行了热议。在讨论中,大多数人表现出对排名的反感,认为这是一个很无聊的游戏,其无聊的关键就是排名的指标难于确定,不可能找到一个人人认同的标准。即使根据所谓的统计检验或者大数据分析得来的,这些指标也可能没有什么实际意义,正如上面所介绍的这篇文章,所得到的指标只不过迎合了从前的人为晋升标准而已,并非客观的挑选人才的标准。也就是说,这篇文章得到的结论只能说明之前的人们挑选PI的权重是什么,并不能用于预测未来成为PI的可能有多大,因为随着时代的进步,这些权重可能正在改变。如果我们用这种披着科学计量外衣的标准来应用于实践,对于人才选择来说并不会产生什么好的变化,而对立志成为PI的人来说,也许还会有一定的误导作用。过去的经验很难适用于未来,这是我在目前这个快速变化新世界的一个切身体会。
转载本文请联系原作者获取授权,同时请注明本文来自赵斌科学网博客。
链接地址:https://wap.sciencenet.cn/blog-502444-857637.html?mobile=1
收藏