氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

去年有7万篇论文来自论文工厂! 精选

已有 4463 次阅读 2023-11-7 09:37 |系统分类:海外观察

去年有7万篇论文来自论文工厂!

科学文献中充斥着由论文工厂炮制的文章,这些企业向需要发表文章来提升简历的研究人员出售虚假的工作和作者身份。但是,这个问题到底有多严重呢?

图片11.png

How big is science’s fake-paper problem? (nature.com)

一份未公开的分析报告显示,过去20年来,已有超过40万篇研究文章被发表,它们与已知的论文工厂生产的研究具有强烈的文本相似性。其中大约7万篇文章是在去年发表的。这份分析估计,2022年发表的所有科学论文中有1.5%至2%与论文工厂的作品非常相似。在生物学和医学论文中,这一比例上升到3%。

如果没有进行个体调查,就无法知道所有这些文章是否实际上是论文工厂的产品。但是,这个比例——只有几个百分点——是一个合理的保守估计,伦敦学术数据服务公司Clear Skies的董事亚当·戴(Adam Day)说。他使用自己开发的名为“论文工厂警报”(Papermill Alarm)的机器学习软件进行了这项分析。去年9月,一个名为STM诚信中心(STM Integrity Hub)的跨出版商倡议旨在帮助出版商打击欺诈性科学,该中心获得了戴的软件的一个版本,用于检测潜在的伪造手稿的工具集。

论文工厂的研究以大量、快速的方式生产出来,它们通常遵循特定的模板,偶尔会交换单词或图像。戴将他的软件设置为分析OpenAlex列出的自2000年以来出版的超过4800万篇论文的标题和摘要,并标记与已知论文工厂作品非常匹配的手稿。这些包括加利福尼亚州伊丽莎白·比克(Elisabeth Bik)和新西兰大卫·比姆勒(David Bimler)(也以笔名“脏鬼克莱德”为人所知)等研究诚信侦探发现的一些撤回文章和疑似论文工厂产品。

比姆勒表示,戴的“风格相似性方法目前是我们估计论文工厂研究普及程度的最佳方法”,但他和其他人都警告说,这种方法可能会无意中捕获到论文工厂复制的真实文章,或者作者将真实数据放入模板式文章中的情况。然而,戴表示,他通过将研究结果与已知为真实或伪造的测试集论文进行验证,试图将假阳性“接近于零”。他说:“必须有一个大信号才能标记一篇文章。”

戴还检查了2022年出版的285万篇有OpenAlex数据库记录的主题领域的工作。其中约2.2%类似于论文工厂的研究,但这一比例因主题而异(见“主题细分”)。

据比克称,戴的估计“虽然惊人地高,但并非不可能”。但她表示,在没有看到戴的方法和例子的完整细节的情况下,无法评估他的工作——澳大利亚悉尼大学癌症研究员兼诚信侦探詹妮弗·伯恩(Jennifer Byrne)对此表示担忧。“遗憾的是,我发现这些估计是可信的,”伯恩补充道。

戴经常在他的博客上分享他的工作,他说他打算在晚些时候发布更多信息,但他补充说,他希望防止竞争对手对他的软件进行逆向工程或欺诈者围绕它进行操作的愿望限制了他公开分享的内容。他说,敏感信息会私下与欺诈调查人员共享。

总的来说,他认为自己的估计是一个下限,因为它会错过避免已知模板的论文工厂。分析表明,论文工厂并不是均匀分布在期刊上的,而是聚集在某些特定的标题上。戴说,他不会公开透露哪些出版商似乎受到的影响最大,因为他认为这样做可能会有损无益。

英国伊斯特利的出版物道德委员会于2022年6月发布的一份报告称,对于大多数期刊来说,提交的论文中有2%可能来自论文工厂,而对于一些期刊来说,这一比例可能高于40%。这份报告基于六家出版商提供的私人数据,但没有说明这些估计是如何得出的,也没有说明有多少论文工厂手稿最终被发表。

识别论文工厂

STM研究诚信主管乔里斯·范·罗素姆(Joris Van Rossum)表示,在过去几年里,出版商加大了打击论文工厂的努力,他领导了STM诚信中心的开发工作,重点是开发工具(包括戴的软件)来帮助检测提交的欺诈性手稿。他们现在有多种方式来筛选它们。比克、伯恩等人指出了许多红旗,STM诚信中心表示,它现在有70多个信号。

遵循常见模板的文字只是其中一个迹象。其他迹象包括与任何论文作者都不对应的可疑电子邮件地址;来自中国的医院的电子邮件地址(因为这个问题在中国非常普遍);声称代表不同实验的相同图表;表明试图避免抄袭检测的标志短语;引用其他论文工厂研究;以及在不同期刊上的重复提交。戴和参与STM诚信中心的人不会透露他们使用的所有信号,以避免欺诈者。

今年5月,德国马格德堡奥托-冯-古里克大学(Otto-von-Guericke University)的神经心理学家伯纳德·萨贝尔(Bernhard Sabel)发表了一篇预印本文章,建议任何作者隶属于医院并提供非学术电子邮件地址的文章都应被视为可能是论文工厂出版物而被标记出来。萨贝尔估计2020年医学和神经科学领域有20%至30%的文章可能是论文工厂产品,但在10月份修订后的预印本中将这一比例降至11%。他还承认他的方法会标记出假阳性结果,这受到了许多研究人员的批评。




https://wap.sciencenet.cn/blog-41174-1408738.html

上一篇:近三年氢气医学生物学核心论文400篇(2021-23年)
下一篇:脑癌细胞劫持增强突触强度促进自身生长
收藏 IP: 117.135.13.*| 热度|

6 刁承泰 郑永军 崔锦华 汪运山 尤明庆 马鸣

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-7 22:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部