美捷登官方博客分享 http://blog.sciencenet.cn/u/medjaden

博文

数以千计的隐形引文潜入论文,被引指数真的还真实吗?

已有 912 次阅读 2025-2-6 14:43 |系统分类:论文交流

2022年,法国图卢兹大学的计算机科学家Guillaume Cabanac发现了一种不寻常的现象:一篇文章在发表不到两个月内就获得了100多次引用。最初,CabanacPubPeer上标记了这项研究,因为该研究被“Problematic Paper Screener”突出显示,这一工具能够自动识别存在潜在问题的研究论文。被标记的论文中存在异常的短语,这些短语对既定术语进行了奇怪的扭曲,可能是由翻译软件或规避抄袭检查器造成。然而,Cabanac注意到更奇怪的一点:根据“Altmetrics donut”,该研究已被引用107次,但其下载次数却仅为62次。

 MJD.png

更重要的是,根据Google Scholar的统计,这篇论文仅被引用了一次。Cabanac指出,“Google Scholar的引用计数与Altmetrics/Dimensions上的计数之间存在明显差异。尤其值得注意的是,Google Scholar通常会高估引用次数。”经过深入调查,Cabanac和其团队最终在提交给Crossref(这是一个学术元数据唯一标识符的存储库)的元数据文件中找到了额外引文的来源。研究小组将这些发现于2022104日上传至arXiv服务器上的预印本。Cabanac解释道,Google Scholar的引用统计基于研究论文PDF版本的文本挖掘,而不是Crossref的元数据文件。“我们相信,这是一种此前未被记录的引用计数操纵方式,”他在接受《Retraction Watch》采访时表示,“这一方法的独特之处在于,不需要篡改论文的正式版本(如PDFHTML),而是通过操作元数据文件实现的。”

 0238443676246937881.jpg

Cabanac指出,有问题的论文的元数据文件包含的参考文献数量明显多于HTMLPDF版本。这些额外的引用被悄悄添加至元数据文件中,并提交给Crossref并被自动提取。由于元数据文件随时重新提交,因此更新后的文件可在文章发表后任意时间加入更多引用。这些多余的引用最终会显著提高Altmetrics分数(该分数描述了文章在社交媒体平台上的传播及提及频率)。这种人为夸大的分数进一步影响了Dimensions等书目平台的引用统计。由于引用计数常被用于评价研究人员的学术影响力和分配科研经费,这种“注水”行为可能对学术界和科研资源分配造成误导。

 

根据Cabanac的研究,新增的引用大多来自Technoscience Academy出版的期刊。Technoscience Academy是一家总部位于印度古吉拉特邦的开放获取出版商,同时也是Crossref的成员。该出版商未对媒体的置评请求做出回应。目前尚不清楚谁在操纵元数据文件,抑或该问题是否因技术故障所致。Cabanac认为,这种现象反映了监督缺失的问题。他建议,建立定期比对PDFHTML和元数据文件中参考文献的工具与系统,将是解决这一问题的关键。

 

Cabanac表示,如果某出版商的输出明显包含异常引用,其Crossref成员资格应受到严格审查。作为Crossref协议的签署方,“出版商应对其行为负责。”“这看起来真的很狡猾,”Crossref会员与社区拓展总监Ginny Hendricks也对此发表了评论,她指出这是他们首次听说这种“隐形引用”的问题。“这绝对是学界执着于将引用作为衡量影响或重要性的指标的副作用,令人遗憾。”她补充道,Crossref将启动调查,并指出Crossref通常不会撤销会员资格,过去仅因Omics International对科学界造成严重影响而被撤销会员资格。Hendricks表示,Crossref到目前为止还没有考虑引入广泛的审查,但她鼓励第三方使用Crossref的开放数据来开发系统从而做到这一点。“科学合法性不是由我们来决定。”

 

在对Technoscience Academy出版的三本期刊分析后,Cabanac的团队发现,这些期刊通过Crossref生成了超过1,000DOI(数字对象标识符)。研究显示,三本期刊发表论文的元数据中约9%的引用(即65,836篇参考文献中的5,978篇)仅使两名研究人员受益。其中一位是印度维沙卡帕特南Vignan信息技术研究所的J. Nageswara Rao,他从3,103次额外引用中获益;另一位是印度甘地讷格尔LDRP技术与研究所的Bhavesh Kataria,他从1,564次额外引用中获益。

 

此外,三本期刊自身也从这些“隐形引用”中获利。例如,International Journal of Scientific Research in Science, Engineering and Technology的引用次数增加了826次,International Journal of Advanced Science and TechnologyTurkish Journal of Physiotherapy and Rehabilitation分别增加了537次和428次引用。

 

在出版商进行调查后,Hindawi撤回了这篇文章。调查显示,该论文存在以下一项或多项系统性操纵发布过程迹象的证据:

 

1 范围差异 

2 报告的研究描述存在差异 

3 数据的可用性与所描述的研究之间的差异 

4 引用不当 

5 文章中包含的不连贯、无意义和/或不相关的内容 

6 同行评议过程被操纵

  除“隐形引用”之外,Cabanac的研究还揭示了“丢失引用”的现象,即论文HTML/PDF中存在的部分引用并未出现在Crossref的元数据文件中。“Crossref元数据(例如Dimensions)用户可能忽略这些引用,因为这些不在他们的数据库中,或者因为他们未能正确地对元数据中提供的引用文本进行文本挖掘,”Cabanac补充道。研究表明,HTML版本中高达56%的引用(即36,939篇参考文献中的65,836篇)未包含在Crossref元数据文件中。

 (作者:Wendy,校对:Leste,审核:Joy)转载请联系授权并显著标明来源美捷登。

参考资料:

https://retractionwatch.com/2023/10/09/how-thousands-of-invisible-citations-sneak-into-papers-and-make-for-fake-metrics/

640 (7).png



https://wap.sciencenet.cn/blog-475824-1471842.html

上一篇:警惕假冒官网!劫持型期刊已经将魔爪伸向Elsevier、Springer Nature等大型出版商
下一篇:已经撤稿3篇——肿瘤专家伪造数据被发现
收藏 IP: 111.60.119.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-14 15:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部