ChatGPT于一年前问世,AI话题热度至今未退。有人叹谓新兴科技,也有人关心技术和自身有什么关系。在Nature近日发布的一项样本为1659人的调查中,有超过半数受访者认为目前AI在科研中的可施展之处在于为非英语母语者作文章润色及翻译。
而在ChatGPT之前,市面上不乏以人工智能驱动的翻译、润色工具。作为学术出版从业者,我们及用户最关心的问题不外乎:AI润色质量如何;能否取代人;哪款工具最好用。
本文带着祛魅的目的对四款AI工具作了测评,希望能解答以上问题。愿你看过之后善用科技,不因未知而仰望,也无谓傲慢贬损。鉴于出版界目前对AI生成的文字持保守态度,许多期刊、基金、协学会不接受以机器撰写内容投稿,我们仅将测评范围划定在语言润色功能内。
统计标准定义
本测评以一段约600字的研究型论文为样本,分别经四款AI工具润色语言,另外引入人工润色结果作为对照。
将人工润色纳入对比,一来是模拟科研作者先用AI润色再自行校对的过程;再则是出于学术道德考量,表明学术文章的署名作者可以借助工具完善内容,却也应明确对工具作业结果负责的立场。
*样本文章为中文母语者撰写,英语是其第二语言。测评前作者已知情同意,原文可见参考文献。
本测评以人工编辑润色结果为标准,判断AI工具的语言编辑效果,评估指标如下:
改对:即工具修改结果与人工编辑改动一致。
改错:即工具修改结果与人工编辑改动不同,且含语法错误。
未改:即工具未识别出人工编辑作出的改动。
改进:即工具识别出人工编辑遗漏的错误。
无明显对错:即工具修改结果与人工编辑改动尽管不同,但语法正确,仅涉及语言风格、措辞等变化。
编辑效果之改了多少
在深入至“AI能改到什么程度”问题之前,不妨先看看改写量。
Grammarly未识别出的错误最多,不过但凡有改动都校正准确;
Paperpal识别出了所有问题,改对数最多;
QuillBot遗漏了超过半数的错误,在29处改动中仍有1处改错;
ChatGPT的改动总数最多,但改错率也最高。有超过一半的改动无明显对错,这是因为ChatGPT对文章的改写程度高,至于是好是坏下文还会展开。
图1-未改数与改写总数对比
图2-改写情况分布
*测评工具均为免费版,分别为Grammarly Free、Paperpal Free、QuillBot Free、ChatGPT 3.5。
编辑质量之改动优劣错在哪里
AI工具的润色或者说改写逻辑,其一是替换同义词。换得好能令行文正式、用词不单一。但对作者判断是否替换得当的要求也更高,在没有学科知识结构支撑的情况下,换词很可能让术语走样。
由同义词替换引发术语出错也是此次测评中最常见的问题,分为两类。
1. 改变术语意思
ChatGPT在编辑中,将learning改为acquisition(图3)。不过从data learning到data acquisition,定义的内容已经变了。
图3-润色改变术语意指
图4中也有类似例子,ChatGPT将原文中的parallel mechanism用同义词作了替换,parallel和concurrent都有同时发生的意思。但在计算机领域中,并行“parallel mechanism”是并发“concurrent mechanism”的子集,两者表达的精准度有别。
图4-润色改变术语精确度
2. 祛技术性
在QuillBot的返稿中,计算机术语时间步长time step被改为step,偏移了学术语境。
图5-润色祛除术语专业性
基础语法编辑效果对比
1. 单复数
英语中有集合名词,以单数形式出现,根据语境其单复数性质会有不同。比如people从不加-s,但所指绝不止一人。
以下例句中的vector就被当作实际意义为复数的集合名词写了下来:
Afterwards, the feature map with channel-attention is split into a series of the vector containing feature information along the time dimension.
vector在计算机领域指存放数据或数据结构的序列,可译为序组,是可数名词。所以句中的vector理应改为vectors。此处或许是原文作者笔误,因其样本文章中多次出现vectors一词,都用对了单复数。
测评中,ChatGPT、Paperpal、QuillBot对此错误都校正准确。Grammarly对单复数未作改动,既没能判断单句中的词性词意,对上下文用词一致性的把握也欠火候。
图6-对单复数编辑正确的工具
图7-对单复数编辑错误的工具
2. 冠词
当非母语者的笔触落在冠词上,往往伴随着犹疑。不该添冠词的地方加多了,会显得唐突;而把应有的冠词略掉,句子的韵律生被抽走一拍,可读性受阻。更重要的是冠词有其功能性,影响着表意。
样本例句:
Due to the presence of parallel mechanism in decoder, the inputs after the current time will be set to zero in order to facilitate the calculation.
这句话说的是:由于解码器的并行机制,输入计法是如何设置的。前半句中少了两个冠词,实际应为“Due to the presence of a parallel mechanism in the decoder...”。
decoder特指研究中的解码器,有点名意味,宜用the修饰。而parallel mechanism则泛指并行机制这一运行逻辑,结合语境前面用a修饰更合理。
这两处错误Grammarly、Paperpal、QuillBot都修改正确;ChatGPT识别出句子少了两个冠词,但其中一处校正有误,将a parallel mechanism前的冠词写作the。
图8-对冠词编辑正确的工具
图9-对冠词编辑错误的工具
3. 从句用that还是which
拿不准定语从句用that还是用which是个顽疾,许多人初中英语课染病后始终治不好。
拿以下样本选句为例:
As shown in Fig. 3, the input of the proposed channel-attention-based CNN is a 2D data map which involves senser measurements in multiple time steps.
*此处“senser”是原稿中的拼写错误。
定语“which involves senser measurements in multiple time steps”,意为含多个时间步长的传感器测量值,修饰2D data map并定义其内容,属限定定语从句。
如按严格的语法应用,此处应该用that而非which,但现代英语已不做硬区分。用that最好,用which也不算错。
尽管如此,Grammarly、Paperpal、QuillBot都严谨地替换为that,ChatGPT按照其热衷改写的特性,用动词ing做后置定语,也无可指摘。
图10-对定语从句引导词编辑正确的工具
4. 主谓一致
主谓一致性语法难点有二,识别主语及判断其是否可数。
取样文章中有如下句子:
Although the size of input and output is seemingly the same, the meanings behind them are totally different.
input/output可同时做可数名词与不可数名词。结合语境,句中指机器学习中的输入输出序列,为可数名词。the size of input and output乍看是单数,但结合下文中的the meanings behind them则不难理解,作者的意思是the size of the input and the size of the output,属复数。
Grammarly和QuillBot没有识别出后文的隐藏线索,而ChatGPT和Paperpal则在这句的编辑中展示了对语法和语境的两重理解。
图11-对主谓一致编辑正确的工具
图12-对主谓一致编辑错误的工具
综合评语
ChatGPT
ChatGPT得到的编辑指令是“edit and proofread the text into academic language”。编辑结果在修改语法之余做了大量改写,可以看作是同类工具grammar check + paraphrase两种功能的组合。文字流畅、贴近母语者水准;擅用同义词替换逻辑,把简单词汇转写为“大词”。后者对人工校对的要求高,替换是否有碍准确性,或用词是否过于艰深令表达效果失色,都需要专业判断。此外,编辑结果无法追踪修改痕迹,需借助第三方软件对比编辑前后文本,操作起来略有不便。
图13-Diffchecker的编辑前后对比,左为原文,右为ChatGPT润色结果
Grammarly
改得比较浅,校正停留在基础语法上。尽管免费版支持设置书面/口语模式及调节受众理解力(图14),但在改稿中没有体现,专业用词替换或措辞调整的情况均为零。
图14-Grammarly的设置界面
Paperpal
与人工编辑的润色结果非常接近,纠错和校正的综合效果好。测评仅启用了语言编辑功能,不涉及改写,返稿结果在专业上忠于原文,对学科术语有一定敬意,语言表达则更偏正式。比如将afterwards、after that改为subsequently;make clear改为clarify。其他三款工具除ChatGPT都没能向前迈这一步。
图15-Paperpal替换正式语
Paperpal支持逐句查看扣分点,视图类似Word的追踪效果。句首自动归纳问题性质,如重新措辞、主谓一致、大小写等。但如能更详细地注释语法规则,给用户判断是与非一些参考会更理想。
QuillBot
语言编辑效果中规中矩,识别问题和改错准确性在Grammarly之上。QuillBot的语法释疑相对完善,即对改动之处给出的语法说明在其他三者之上。
图16-三款工具的语法问题分析界面
QuillBot允许用户上传文档,平台会在读取文档后将内容自动转写成文本开始编辑。遗憾的是,这一功能没能如我预期保护文档格式。样本文章含多处特殊字体或符号,如、,QuillBot都未能识别,只用空格占位。需要说明的是,Grammarly及Paperpal也没识别出特殊字符,ChatGPT则用[Variable Name]统一指代,但它们均不支持上传文档,对格式完整的预期本身也低。
参考文献
https://www.nature.com/articles/d41586-023-02980-0
https://www.science.org/content/page/science-journals-editorial-policies#image-and-text-integrity
https://www.sciencedirect.com/science/article/abs/pii/S0951832022000102
https://www.diffchecker.com/text-compare/
https://app.grammarly.com/
https://quillbot.com/grammar-check
∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵
Paperpal由意得辑母公司开科思研发,汇集逾二十一年的发表支持经验,是一款意图提升研究者英语写作体验的AI工具, 集语言编辑、文本改写与生成、投稿检查三类主要功能。可令各类学术体裁生色,适用于期刊投稿、学位论文、基金标书、会议讲演稿等多种内容的编辑与改写。已获诸多顶尖大学与主流出版社背书,使用者覆盖130个国家,累积好评逾60万则。
工作逻辑兼顾语言准确性与学术性,功能设计从辅助论文投稿出发,予写作者方便及效率。
你将获得哪些写作便利?
校正语言——识别用词、语法、拼写、标点错误,调整遣词造句,匹配英语母语者的编辑水准。
写作助手——草拟提纲、总结研究亮点、提炼投稿关键词,引出思路,避免无谓卡顿。
稿件完备度检查——依发表标准对稿件作逾30项语言及技术评估,备注改进建议,以期刊的眼光审视欠缺。
句段改写——复述语句、调整句型,令文章表达与叙述逻辑趋近英语母语者思维。
学术出版从业者独立研发——注入论文发表途中的经验同教训,令内容贴合科研语境,维护专业属性。
2月29日前,新用户免费享Prime会员权益,不限编辑与改写次数,解锁付费限定功能——稿件完备度筛查。
更多详情,欢迎前往官网页面了解。
转载本文请联系原作者获取授权,同时请注明本文来自Editage意得辑科学网博客。
链接地址:https://wap.sciencenet.cn/blog-769813-1419133.html?mobile=1
收藏