博文

用ChatGPT建立的虚拟科学家精选

已有 4979 次阅读 2024-2-13 17:21 |系统分类:海外观察

纽约大学研究人员进行的这一研究说明，过分使用人工智能和当前学术界存在的学术引用购买行为，可能会对学术评估带来巨大冲击。设想一下，虚拟人能在短时间内被包装成有影响力的学者，一个学术水平非常一般的学者，如果也借用这种技巧，我们怎么去客观评价一个学者的影响力。

Vendor offering citations for purchase is latest bad actor in scholarly publishing | Science | AAAS

2023 年，一个新的 Google Scholar 个人资料出现在网上，其中有一位从未听说过的研究人员。几个月后，这位虚拟科学家和假新闻专家，被学术数据库列为该领域第36位被引用最多的研究人员。他们的h指数为19，这意味着他们发表了19篇学术文章，每篇文章至少被引用了19次。这在学术出版界令人印象深刻。

需要注意的是，这名所谓研究人员和所在机构都是虚构的，由纽约大学（NYU）阿布扎比分校的研究人员创建，他们正在探索阴暗的出版行为。

这些出版物是由 ChatGPT 撰写的。引文数字是假的：有些来自作者过度引用他们自己的“作品”，而另外50个则是从提供“引文助推器服务”的供应商那里以300美元的价格购买的。

“批量购买引文的能力是一个新的、令人担忧的发展，”悉尼大学的癌症研究员詹妮弗·伯恩（Jennifer Byrne）说，她研究了生物医学文献中有问题的出版物。在学术界，研究人员的h指数和他们获得的引用次数通常用于招聘和晋升决策。而捏造的个人资料是上周在arXiv上作为预印本发布的一项研究的一部分，显示了可以用来操纵它们的“极端”策略，Byrne补充道，他没有参与这项工作。（研究人员拒绝透露供应商的名字，以避免给他们带来更多业务。

这项研究始于纽约大学阿布扎比分校的计算机科学家亚西尔·扎基（Yasir Zaki）和他的同事注意到真实研究人员中令人不安的模式。在梳理了超过 160 万名科学家的 Google Scholar 个人资料并查看了至少发表 10 篇论文和 200 次引用的作者后，该团队确定了 1016 名科学家，他们的引用次数在一年内增加了 10 倍。“当科学家的引用量突然大幅飙升时，你就知道有些事情不对劲了，”扎基说。

该团队标记了114名科学家，这些科学家从一篇论文中获得了超过18次引用 - Zaki说，这是一个可疑的迹象，“因为即使是成熟的科学家也很少会有来自同一来源的少数引用。在一个特别令人震惊的案例中，一篇论文中90%的参考文献引用了一位科学家的出版物。“那是......发表在可疑科学家担任编辑的期刊上，“扎基说。

研究人员说，与114名可疑科学家相关的许多引文来自低质量的出版物，包括未经同行评审的预印本。一些引用的出版物甚至没有在文章的正文中引用研究人员的工作;引文只是在最后被添加到参考文献列表中。

该团队还注意到，其中一位作者从科学家社交网站Research Gate上的一个帐户托管的论文中获得了许多引用。“令我们震惊的是，这个账户公开宣传引文购买服务！”研究作者、纽约大学阿布扎比分校的计算机科学家塔拉勒·拉万（Talal Rahwan）说。

就在那时，他们决定创建捏造的 Google Scholar 个人资料，看看他们是否可以自己购买引文。他们要求 ChatGPT 撰写 20 篇关于假新闻主题的研究文章，嵌入许多自引——引用同一虚构作者撰写的论文——模仿一些研究人员用来提高引用数量的做法。

然后，他们将文章发布在各种预印本服务器上。Google Scholar 在对学术文献的扫描中检测到了这些文章，并填充了虚构的作者简介，将这些预印本列为出版物，并为其中包含的 380 篇自引用赋予研究人员荣誉。

从那里，购买额外的引文相对容易。研究小组使用虚构科学家的名字，通过WhatsApp联系了供应商，并购买了“50次引用包”。在40天内，发表了五篇论文，每篇论文都引用了10次假新闻研究人员的工作。五项中有四项发表在一本化学期刊上。“这毫无意义，因为我们虚构的研究人员的论文甚至与化学无关，”Rahwan指出。

该研究表明，一些研究人员正在使用类似于纽约大学阿布扎比团队采用的策略来提高他们的引文排名。“他们在这篇论文中展示的证据非常有力，”布法罗大学（University at Buffalo）的应用数学家Masuda直树（Naoki Masuda）说，他研究了异常引用。

作者不能说这些问题在学术文献中有多普遍。“我们只关注那些令人发指的案件，”拉万说。但他们确实看到了一些迹象，表明同一化学期刊发表的其他论文可能包含了被购买的引文：其他11位（真正的）科学家从该期刊上发表的一篇论文中获得了至少10次引用。

马格德堡奥托·冯·格里克大学（Otto von Guericke University Magdeburg）的神经心理学家伯恩哈德·萨贝尔（Bernhard Sabel）研究了在科学论文上出售作者身份的造纸厂，他说学术界应该“非常关注”这种操纵。“这个问题很大，而且在过去的10-15年里一直在快速增长，”Sabel补充道。在他看来，谷歌学术搜索和其他数据库应该解决这个问题。“他们有实力，应该采取行动清理这些混乱的欺诈引证，”他说。（谷歌没有回应有关该平台方法以及该公司是否意识到研究中发现的问题的置评请求。

Byrne指出，错误引用的问题并不局限于Google Scholar，但她对新研究发现的平台的一些奇怪之处感到惊讶。例如，研究小组发现，即使在引用文章从预印本服务器中删除后，引用仍然存在。“这显然是一个需要填补的漏洞，”她说。

为了识别潜在的引文模式，该研究的作者提出了一种称为引文集中指数（c2-index，它反映了至少多次引用研究人员的论文数量。虽然高 h 指数可以表示富有成效、信誉良好的研究人员，但高 c2-index 意味着应该对印象持保留态度。例如，在一个现实生活中的案例中，一位科学家有一个 c2-索引为45，这意味着45篇论文每篇论文引用了该科学家45次。

“无论采取什么措施来减少这个问题，都是值得欢迎的一步，”Sabel说。但也有人担心，即使实施了这样的指数，不良行为者也会做出调整并保持领先一步。“欺诈者......可以阅读这一点，并相对容易地发明隐藏其行为的方法，“增田说。“所以，游戏永远不会结束。”

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://wap.sciencenet.cn/blog-41174-1421558.html

上一篇：Apple Vision Pro：这对科学家意味着什么？
下一篇：氢气气泡是一种新型绿色安全肥料

收藏 IP: 117.135.12.*| 热度|

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

用ChatGPT建立的虚拟科学家精选

当前推荐数：5 推荐人：郑永军 闻宝联 孙颉 冯兆东 guest86583662

该博文允许注册用户评论请点击登录评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

用ChatGPT建立的虚拟科学家 精选

当前推荐数：5 推荐人： 郑永军 闻宝联 孙颉 冯兆东 guest86583662

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

用ChatGPT建立的虚拟科学家精选

当前推荐数：5 推荐人：郑永军闻宝联孙颉冯兆东 guest86583662

该博文允许注册用户评论请点击登录评论 (0 个评论)