博文

旧文新读、新感受：谁能成为下一个PI？精选

已有 34957 次阅读 2015-1-8 22:55 |个人分类:一起读顶刊|系统分类:科研笔记| 预测, 影响因子

昨天，一位朋友推荐我看一篇文章：Publication metrics and success on the academic job market，发表在去年的Current Biology上。我隐隐约约记得曾经在什么地方看过这篇文章的一些内容。在网上找了找，终于找到了一些。不过，待我来重新读这篇文章的原文全文，还是有一些新的感受的。下面先看看这篇文章吧。

这篇文章采用机器学习的方法来预测，谁将成为下一个PI。作者还做了一个模型，放在网上（www.pipredictor.com），任何人都可以用来计算一下他们成为PI的可能性。为了精确量化某位作者是否可以，以及何时可成为PI，研究采集了25604个可识别的独立作者的数据，用200多个有关论文产出的度量指标来进行比对。结果表明，一名科研工作者是否能成为PI，主要还是能通过他们的发表记录进行预测，甚至只需要考虑前几年的出版情况。

为了量化各出版物特征独立于其他混杂变量的影响，作者们开发了一个统计模型。这个模型对于预测一个人是否成为PI以及要花多长时间成为PI具有相对较高的预测精度。其中有一个最小的模型，只使用了五个最具预测功能的参数，仍然具有显著的预测力。正如预期，一个人如果具有更多第一作者的论文，或者高影响因子杂志论文较多，将更容易成为PI。此外，他们具有较高的h指数，这也证实了之前有关h指数可预测科学家是否算成功的说法。然而，实际引文数量这个指标，与杂志影响因子相比，可预测性要小一些。这表明，出版物的感知质量（即杂志的影响因子）是比论文的实际质量（即引用数）权重更大一些。由于一篇文章的被引文数量与杂志的影响因子有一定的相关性，因此采用将引文数量除以影响因子的办法来消除这种影响，用被引用数/IF来度量。

看到这里，我想到了自己之前写的一篇博文：杂志影响因子与我何干？文章水平评价另类探讨。其中，我谈到了这样一个策略：首先检索出目标杂志同期发表所有文章的被引用次数（采用web of science很容易获取）并计算平均值，然后将目标论文的引用次数除于这个平均值，就是该篇论文的得分。这个得分表面上看是表示该论文在当期杂志上的排名，本质上却是表达了在某一具体的专业领域论文受到实际关注的程度，也就应该代表了该论文的“水平”。“被引用数/IF”这个参数与我提出的算法有些相似，但我的那个参数更准确一些，详细情况，可参阅那篇博文。

在这个研究中，被引用数/影响因子在一个线性模型中是排列第四的预测参数，位列影响因子、出版物数量和性别之后。因此得出结论，招聘委员会也考虑了在低影响因子期刊中所发表的好文章。同时也发现，许多成为PI的科学家从未在高影响因子期刊中发表文章。为了更好地了解这些作者是如何做到让自己成为PI的，文章作者将已经成为PI但却在非常低的影响因子（低于所有非PI作者的75%）刊物上发表文章的作者单独分成一组进行分析，结果发现，这些作者比那些没有成为PI的人，他们以第一作者发表文章的增速是未成为PI人的两倍，这表明有更多的第一作者文章，能够弥补对高影响因子文章的缺乏。看来，刚开始起步的研究人员，灌水文章也是有用的。

有更多第一或第二作者文章的作者更容易成为PI，而有更多中间作者（非第一、第二作者）对成为PI没有什么帮助，除非这些文章的影响因子非常高。此外，如果只是暴多合作者论文中的中间作者，成为PI的可能性更小。合作者数量与成为PI的可能性之间有很小的负相关关系，表明合作者数量对第一作者还是有一定的副作用。几乎根据所有的指标，在其职业生涯的第一年，PI的表现就与那些最终离开学术界的人有所不同，其中约有一半的作者在他们发表论文的七年之内成为PI。熬成PI时间不同的人他们发表论文的行为也有差异。超过七年才成为PI的人所发表文章的引用情况比更快成为PI的人要多，说明在低影响因子的杂志上发表重要论文也可以成为PI，但这条路的时间显然要更长一些。

成为PI，还有一个因素，是其就读大学的排名，大学排名也与许多其他参数高度相关的。然而，大学排名作为预测是否成为PI是独立于其他杂志参数的。另外，PI而不是非PI会在其职业生涯的前五年会为他们大学排名的排名做出贡献，这表明他们在一所大学做博士后（或合作）比它们完成博士学位的时候要做得好。较长时间才获得PI与大学排名下滑的曲线表明，平均而言来自排名更高机构的人成为PI要早于来自较低排名的机构。好的大学会吸引更优秀的人，因此能产生更多PI。任何大学的排名都与一些非发表参数相关（例如一些软技能），排名高的大学名称会让申请者的简历看起来更好。

从性别来说，男性成为PI的概率要大得多。即使发表论文的情况相同，男性成为PI的可能性也要大得多。

总之，要成为PI，期刊影响因子、出版物数量和性别比论文本身的质量更重要。当然，文章作者也认识到，这个模型得到的是相关性，而不是因果关系。不过，我认为这个相关性是可以反映因果关系的，真实体现了目前的学术晋升状况。但是，我要说这篇文章其实并没有什么意义，这是一个多此一举的研究。为什么这么说呢？因为，一个研究人员是否能晋级到更高级职位，本来就受限于一个人为标准，这个标准其实大家都非常清楚，那就是依据期刊影响因子、h-指数、作为重要作者的论文数量（在中国，如果做一个类似的研究，肯定含通讯作者）、性别、就读大学的情况等等，所有指标都是预料之中的，因此文章所得出的结论只是吻合了我们的人为标准而已。文章中还谈到的，文章的质量不高，可以用数量来弥补；做得好的人，在开始职业生涯后七年就能成为PI，这也与我们的常识是符合的。

上周，科学网对科研人员排名问题进行了热议。在讨论中，大多数人表现出对排名的反感，认为这是一个很无聊的游戏，其无聊的关键就是排名的指标难于确定，不可能找到一个人人认同的标准。即使根据所谓的统计检验或者大数据分析得来的，这些指标也可能没有什么实际意义，正如上面所介绍的这篇文章，所得到的指标只不过迎合了从前的人为晋升标准而已，并非客观的挑选人才的标准。也就是说，这篇文章得到的结论只能说明之前的人们挑选PI的权重是什么，并不能用于预测未来成为PI的可能有多大，因为随着时代的进步，这些权重可能正在改变。如果我们用这种披着科学计量外衣的标准来应用于实践，对于人才选择来说并不会产生什么好的变化，而对立志成为PI的人来说，也许还会有一定的误导作用。过去的经验很难适用于未来，这是我在目前这个快速变化新世界的一个切身体会。

转载本文请联系原作者获取授权，同时请注明本文来自赵斌科学网博客。
链接地址：https://wap.sciencenet.cn/blog-502444-857637.html

上一篇：Nature爆审稿系统中的巨大漏洞：作者审自己的稿子
下一篇：众包环境监测中的大数据思维：混杂性与精确性

收藏 IP: 202.120.224.*| 热度|

生态学时空分享 http://blog.sciencenet.cn/u/lionbin 自我营造一个可持续发展的学术生态系统

博文

旧文新读、新感受：谁能成为下一个PI？精选

当前推荐数：26 推荐人：陈楷翰 邵鹏 徐耀 秦承志 刘立 罗汉江 方唯硕 毛秀光 张波 黄永义 强涛 赫荣乔 喻海良 赵凤光 赵序茅 高建国 庄世宇 赵美娣 蔡庆华 李天成 biofans shenlu yunmu neilchau abang cly85

该博文允许注册用户评论请点击登录评论 (40 个评论)

赵斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

生态学时空分享 http://blog.sciencenet.cn/u/lionbin 自我营造一个可持续发展的学术生态系统

博文

旧文新读、新感受：谁能成为下一个PI？ 精选

当前推荐数：26 推荐人： 陈楷翰 邵鹏 徐耀 秦承志 刘立 罗汉江 方唯硕 毛秀光 张波 黄永义 强涛 赫荣乔 喻海良 赵凤光 赵序茅 高建国 庄世宇 赵美娣 蔡庆华 李天成 biofans shenlu yunmu neilchau abang cly85

该博文允许注册用户评论 请点击登录 评论 (40 个评论)

赵斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

旧文新读、新感受：谁能成为下一个PI？精选

当前推荐数：26 推荐人：陈楷翰邵鹏徐耀秦承志刘立罗汉江方唯硕毛秀光张波黄永义强涛赫荣乔喻海良赵凤光赵序茅高建国庄世宇赵美娣蔡庆华李天成 biofans shenlu yunmu neilchau abang cly85

该博文允许注册用户评论请点击登录评论 (40 个评论)