孙学军
出版商:用AI撰写论文的作者远多于主动披露者 精选
2025-9-16 07:07
阅读:1473

出版商:用AI撰写论文的作者远多于主动披露者

这一发现既凸显了AI生成文本检测工具的应用前景,也引发了相关争议

图片2.png 

2022年底ChatGPT问世,其类人化的流畅表达令用户惊叹。此后,众多学术期刊纷纷出台政策,要求作者披露是否使用人工智能(AI)辅助撰写论文。然而,某出版社的最新数据显示,实际使用AI的作者人数是主动披露者的4倍——且同行评审人员也在使用AI,尽管期刊明确要求他们不得这样做。

这项新研究由美国癌症研究协会(AACR)开展,调查对象为该协会旗下出版的10本期刊。AACR负责编辑系统的丹尼尔·埃万科(Daniel Evanko)表示,此前有部分作者质疑自己提交论文所获的同行评审报告是否由AI生成,协会因此启动了这项研究。研究采用了一款近期研发的AI检测工具,AACR团队及其他研究者均认为该工具的准确性较高。

研究团队发现,在1月1日至6月30日期间,向AACR提交的7177份稿件中,36%的摘要至少包含部分AI生成文本。但在投稿流程的自动环节中,当被问及是否使用AI辅助撰写稿件时,仅有9%的作者如实披露了这一情况。

此前已有研究尝试量化AI在论文撰写和同行评审中的使用情况,但上周在“同行评审与科学出版国际大会”上公布的这项新研究,是首批评估作者披露信息准确性的研究之一。埃万科指出:“若无法验证准确性,披露信息本身几乎毫无价值。”

《美国医学会杂志》(JAMA)旗下子刊JAMA+AI的主编、马萨诸塞州综合医院精神病学家罗伊·珀利斯(Roy Perlis)认为,这项研究为解决该问题“提供了良好的起点”。但他同时表示,AI检测工具可能会出现假阳性结果,人类编辑在解读检测结果时必须运用判断力。“存在一种切实风险:我们将这些工具纳入(编辑)流程后,会把它们的输出结果视为绝对可靠。”

埃万科表示,他最初对团队最终采用的这款新检测工具——潘格拉姆实验室(Pangram Labs)的“AI检测仪表盘”(AI Detection Dashboard)——所宣称的高准确性“极度怀疑”。潘格拉姆实验室于2024年推出的这款检测工具,基于一种名为“深度学习”的AI技术,该计算方法也被用于ChatGPT等大型语言模型(LLM)。在2024年发布的一篇预印本论文中,工具研发者称其文本分类器的准确性高于同类产品,原因是他们采用了独特的训练方法和数据集:首先收集了大量2021年及之前确认由人类撰写的文本样本,随后引导大型语言模型生成与这些文本在风格、语气和语义内容上匹配的相似版本,再训练文本分类器识别两者间的细微差异。过程中,研发者还会逐步调整提示词,让大型语言模型生成更难与人类撰写文本区分的内容。该工具采用10分制评分,分数越高表明文本由AI生成的可能性越大。

尽管埃万科最初心存疑虑,但在将该工具用于检测AACR 2020年和2021年(ChatGPT问世前)的投稿稿件后,他的担忧得到了缓解:工具标记为“可能含AI生成内容”的稿件占比远低于1%,证明其在避免假阳性方面表现出众。

检测结果显示,ChatGPT问世后,AACR论文的摘要、方法部分以及同行评审报告中,AI生成文本的占比稳步上升。(埃万科的研究仅涵盖这些类型的文本,因为AACR数据库中这些文本的格式便于分析。)除摘要中AI生成文本占比高外,研究团队还发现,在2024年第四季度,近15%的“方法”部分和7%的评审报告中也存在AI生成内容。

埃万科推测,作者不披露AI使用情况,是担心期刊因此拒稿——尽管使用AI进行稿件编辑等操作在很多情况下是合规的。国际科学、技术与医学出版商协会(STM)今年4月报告称,许多作者对“何时需要披露AI使用情况”感到困惑。该协会已基于2023年发布的指南拟定了更新版本,预计将于下周敲定最终内容。

埃万科和珀利斯均表示,使用AI进行稿件编辑等操作在很多情况下具有合理性,尤其对于非英语母语的作者而言。事实上,埃万科发现,来自非英语官方语言国家的稿件被标记为“含AI生成内容”的比例,是英语国家稿件的两倍——这或许是因为这些作者借助AI优化英文表达。但埃万科补充道,AI生成文本也可能是“论文工厂”产出稿件的众多特征之一。潘格拉姆的检测工具显示,近期向某本AACR期刊提交的一系列读者来信,均由深度求索(DeepSeek)大型语言模型生成。

针对埃万科的研究结果,AACR正考虑后续措施,包括使用这款新工具对所有投稿进行筛查。但埃万科表示,仅1月至6月期间,就有超过2500份AACR投稿因摘要含AI生成内容被标记,“数量太多,无法让人工逐一跟进每起未披露案例”。该出版社或许会先采取自动发送邮件的方式,要求作者对此作出解释——类似处理稿件其他问题时的做法。

不过,珀利斯认为,目前AI文本检测工具的准确性尚未达到能帮助出版商和编辑妥善处理机器生成文本的水平。他表示,在这类工具被常规使用前,需要建立统一的性能基准,并收集更多数据,以评估其在不同科学领域稿件中的检测表现。“我们鼓励人们继续研发这类工具,”他说,“但同时也必须承认,一场‘军备竞赛’在所难免——工具越精准,人们就会越努力寻找规避检测的方法。”


自然报道:

人工智能工具可检测研究论文与同行评审中的大型语言模型生成文本

尽管期刊出台政策限制大型语言模型(LLM)的使用,但作者与同行评审人员仍未如实披露其使用情况。  

 图片3.png

智能手机屏幕上显示着ChatGPT与OpenAI的标志,手机放置在键盘上。  

某出版商发现,尽管其强制要求作者在投稿时披露AI使用情况,但仅有不到25%的作者如实告知自己使用AI辅助撰写稿件。图片来源:尼古拉斯·伊科诺穆(Nicolas Economou)/努尔图片社(NurPhoto)通过盖蒂图片社(Getty)供图  

某学术出版商经研究发现,对上万份研究论文投稿的分析显示,过去几年中,人工智能(AI)生成文本的占比大幅上升。  

美国癌症研究协会(AACR)指出,2024年向其旗下期刊提交的稿件中,23%的摘要与5%的同行评审报告包含可能由大型语言模型(LLM)生成的文本。该出版商还发现,尽管已强制要求作者在投稿时披露AI使用情况,但仅有不到25%的作者如实告知自己使用AI辅助撰写稿件。 

为筛查稿件中是否存在AI使用痕迹,AACR采用了由位于纽约市的潘格拉姆实验室(Pangram Labs)研发的一款AI检测工具。2021年至2024年间,该工具对向AACR旗下10本期刊提交的46500份摘要、46021个“方法”部分及29544条同行评审意见进行了检测。结果显示,自2022年11月OpenAI聊天机器人ChatGPT公开上线后,投稿内容与评审报告中疑似AI生成文本的比例显著上升。  

“AACR期刊运营与系统总监丹尼尔·埃万科(Daniel Evanko)于9月3日在伊利诺伊州芝加哥市举办的第十届同行评审与科学出版国际大会上公布了这一研究结果。他表示:‘看到潘格拉姆工具的检测结果时,我们感到十分震惊。’”  

分析显示,2023年底,在AACR禁止同行评审人员使用大型语言模型后,评审报告中的AI生成文本占比下降了50%。但到2024年初,评审意见中AI生成文本的检出率又翻了一倍多,且后续持续上升。  

埃万科指出:“尽管我们明确禁止使用大型语言模型进行同行评审,却发现此类使用行为反而增多,这一现象令人不安。”他补充道:“我们肯定会着手对所有新投稿件及所有新提交的同行评审意见进行筛查。”  

伦敦研究诚信公司“晴空”(Clear Skies)的创始人亚当·戴(Adam Day)表示,这款检测工具“似乎表现极佳”。但他也提到:“在假阳性率方面,可能存在我们尚未发现的偏差,这一点需要引起重视。”  

准确率达99.85%

潘格拉姆工具的训练数据包含2021年之前的2800万份人类撰写文档(其中包括300万篇科学论文),以及“AI镜像文本”——即由大型语言模型生成、在篇幅、风格与语气上模仿人类撰写内容的文本。  

潘格拉姆实验室首席执行官马克斯·斯佩罗(Max Spero)表示,为工具添加“主动学习模式”是实现突破的关键举措之一,这一模式有效降低了假阳性率(即错误标记人类文本为AI生成文本的比例)。他透露,团队对工具进行了反复训练,“将假阳性率从约1%降至约0.01%”。  

斯佩罗及其团队在去年发布的一篇预印本论文[1]中指出,潘格拉姆工具的准确率高达99.85%,错误率比目前市面上其他AI检测工具低38倍。  

在对2022年11月ChatGPT上线前的稿件进行检测时,该工具仅标记了7份摘要可能含AI生成文本,未发现“方法”部分或评审报告中存在此类情况。埃万科表示:“从ChatGPT上线后,AI生成文本的检出率开始线性上升,且增速远超我们预期。”  

该工具还能区分不同类型的大型语言模型,包括ChatGPT系列模型、深度求索(DeepSeek)、LLaMa及Claude。斯佩罗解释道:“我们之所以能做到这一点,是因为整个训练数据集均由我们自行生成——我们清楚每一条训练数据的来源,也明确其对应的是哪一款模型。”  

不过,当前版本的潘格拉姆工具无法区分“完全由AI生成的文本”与“人类撰写但经AI编辑的文本”。  

语言辅助工具

AACR使用潘格拉姆工具对2024年的投稿进行了专项分析,涵盖11959份摘要、11875个“方法”部分及7211条同行评审意见。  

分析发现,来自非英语母语国家机构的作者使用大型语言模型的概率是英语母语国家作者的两倍多。  

埃万科表示:“‘方法’部分的AI使用率之高,让我个人感到十分意外。让大型语言模型优化‘方法’部分的表述,可能会引入错误……因为这部分内容需要精准描述实验步骤,一旦改写,可能就会偏离原意。”  

研究还发现,2025年被潘格拉姆工具标记摘要含AI生成文本的投稿,其在同行评审前被期刊编辑直接拒稿的概率,是未被标记稿件的两倍。若“方法”部分被标记含AI生成文本,稿件的直接拒稿率会更高。  

不过,该分析并未追踪被标记的稿件最终有多少得以发表。  

未披露的AI使用行为

AACR的分析表明,当前针对AI使用情况的披露政策效果有限。进一步研究发现,2025年1月至6月提交的7177份稿件中,36%的摘要被潘格拉姆工具标记为疑似含AI生成文本,但所有投稿中仅9%的作者向期刊披露了AI使用情况。  

然而,就职于芝加哥西北大学范伯格医学院(Northwestern University Feinberg School of Medicine)、研究科研伦理与诚信的穆罕默德·侯赛尼(Mohammad Hosseini)认为,应谨慎解读这一研究结果。他表示,目前无法完全证实被标记的稿件确实使用了AI。  

侯赛尼还指出,研究者使用AI辅助撰写稿件的方式可能不止“撰写、润色或翻译文本”,还可能包括“数据分析、生成图像”等。根据AACR的政策,这些AI使用行为均需披露,但“现有工具无法检测到此类情况”。  

不过,侯赛尼强调,该研究结果表明出版商需要“针对政策违规行为采取行动”,否则科研“界可能会认为编辑政策只是一纸空文”。  

侯赛尼建议,期刊可以“向违规的评审人员发送警示通知,要求其在未来评审中不得使用AI;同时将受影响的稿件重新分配评审,并在必要时对稿件进行更正或撤回”。他表示:“一篇论文的生命周期并不会随着发表而结束。”

转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。

链接地址:https://wap.sciencenet.cn/blog-41174-1501739.html?mobile=1

收藏

当前推荐数:6
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?