两周前,我们推送的一篇文章《谷歌学术VS人工智能,谁能赢得科研人员的欢心?》介绍了一些好用的AI学术搜索工具,热门工具如Semantic Scholar,Consensus等以其优秀的相关论文推荐算法和文献检索分析功能受到了广大科研人的喜爱。
既然AI已经可以帮助科研人员快速整合和理解大量科学文献,那么实现自动化的高质量文献综述生成是否已近在眼前?
Nature近期发布了一篇题为《人工智能能否查阅科学文献,并弄清其中的含义?》的文章,就指出了利用AI进行综述撰写的优缺点:AI有助于快速总结文献,但它也面临诸如准确性、透明性和可重复性的问题,而且可能会产生低质量甚至误导性的综述。
图片来源Nature 新闻页面:https://www.nature.com/articles/d41586-024-03676-9
用AI技术提升综述研究的速度
互联网的普及、研究人员的增多带来了文献数量的爆炸式增长,这也给想要收集某个领域信息的科研人员带来了烦恼。
五年前,当Sam Rodriques还是一名神经生物学研究生,他就发现研究人员的能力是有限的,“没有人能够全面地理解或阅读所有的文献并获得一个全局视角。”
Sam Rodriques希望使用AI解决这个问题。今年9月,他和他的团队创立的FutureHouse宣布,他们构建了一个基于AI的系统可以在几分钟内生成比维基百科页面更准确的科学知识综述。该团队迅速为大约17,000个人类基因生成了维基百科式条目,其中大多数以前并没有详细页面。
FutureHouse团队利用该系统生成有关单个人类基因的维基百科式文章,还将其中数百条AI撰写的声明,与相同主题上的人类撰写的真实维基百科文章中提取的声明,交给了一个由生物学博士和博士后组成的盲测小组。小组发现,人类撰写的文章中“推理错误”——即书面声明没有适当引文支持的次数——是AI工具撰写文章的两倍。由于该工具在这方面的表现优于人类,团队将其论文命名为“语言代理实现超人类科学知识综述(Language agents achieve superhuman synthesis of scientific knowledge)”。
他们还计划开发一种「AI 科学家」,它可以分析和总结研究论文,并使用大型语言模型回答科学问题——这也与目前流行的人工智能聊天机器人的技术相同。不过,FutureHouse 打算更进一步。Sam Rodriques 指出,「AI 科学家」有朝一日将能够筛选数千篇科学论文,并以比人类更快的速度和规模独立提出假设。
「未来10年我们计划构建用于科学研究的半自主人工智能,加快发现速度,并为全世界提供尖端的科学、医学和工程专业知识。」FutureHouse 在声明中写道。
Sam Rodriques并不是唯一一个研究AI帮助撰写综述的人。多年来,学者们一直在尝试提升“将大量研究编辑成综述”这一艰巨任务的速度。而大型语言模型(LLM)的爆发,无疑让人们对自动化这项任务产生了更多兴趣。
要求AI从头开始写一篇学术文献综述是极其天真的
如果AI被要求基于某个主题的研究进行综述,像ChatGPT这样的大语言模型(LLMs)很可能会同时引用可信的学术研究、不准确的博客以及未知来源的其他信息,而不是权衡最相关、最高质量的文献。并且因为AI的运行机制导致其会对相同的问题产生不同的答案,并“虚构”出一些错误信息——例如“不存在”的学术参考,这显然并不符合科研人员对研究综述的要求。
为了减少“虚构”,AI驱动的科学搜索引擎如Consensus和Elicit会将用户的问题转化为对学术数据库如Semantic Scholar和PubMed的计算机化搜索,返回最相关的结果。然后,总结这些研究并将它们综合成一个带有引用来源的答案,用户可以根据需要进行筛选,至少保证了引用内容的真实性。
这些工具“肯定可以使你的综述和写作过程更有效率。”南丹麦大学的博士后研究员Mushtaq Bilal说。
例如,Scite可以快速生成支持或反驳某一主张的论文的详细分解。科研人员很容易知道一篇研究论文被引用了多少次,有困难的是确定引用论文的文献对被引用论文的主张是否支持。Scite不仅能帮助科研人员迅速找到指定论文的引用文献群,同时可以让科研人员清晰的了解其他作者对于这篇论文持有的观点(支持,反对或提及),并且可以用可视化的方式呈现引用文献的关系。
图片来源Scite网站:https://scite.ai/
Elicit也可以通过自动化总结论文、提取数据和综合研究功能来帮助科研人员,根据查找的主题从相关论文列表中获取一句话摘要,将提取的信息整理成表格。Elicit还支持跨多篇论文查找主题和概念。
图片来源Elicit网站:https://elicit.com/?redirected=true#Features
但是,大多数AI科学搜索引擎无法自动生成准确的文献综述,其输出更是“一个本科生通宵提炼出几篇论文要点”。不过,研究人员可以使用这些工具来优化综述过程。
这些工具还有一个明显的缺点,就是它们只能搜索开放获取的论文和摘要,而非文章的全文。Elicit搜索约1.25亿篇论文,Consensus可以查看超过2亿篇论文。许多研究文献受到付费墙的限制,且搜索大量全文需要非常大的计算量,让AI查看数百万篇文章的全文将需要很长时间,而且费用十分高昂。
自动化系统综述仍需要很长时间
与叙述性综述相比,“黄金标准”的系统综述更具有挑战性,它涉及严格的程序来搜索和评估论文,还包括Meta分析来综合结果。大多数研究人员认为,这些离完全自动化还有很长一段路要走,可能是10年后,也可能是100年后。
根据Glasziou团队的细分,系统综述需要至少25个细致步骤。在梳理文献后,研究人员必须过滤其长篇名单以找到最相关的论文,然后提取数据、筛选研究潜在的偏见并综合结果,还需要由其他人重复执行以检查不一致。这种严谨、透明且可重复的方法在医学领域中非常重要,因为临床医生会根据结果来指导有关患者治疗的重要决策。
在ChatGPT出现之前,Glasziou团队使用一些工具来减少系统综述的时间,如RobotSearch,一个机器学习模型,能够快速识别研究集合中的随机试验。另一个AI系统RobotReviewer帮助评估某项研究是否因一些原因(例如未充分遮盲)而存在偏见风险。
Elicit公司表示其工具可以自动化一些步骤——包括筛选论文和提取数据和见解,以帮助系统综述。
但仍有科研人员担心,AI工具可能无法满足研究的两个基本标准:透明性和可重复性。他们希望看到更多有关AI系统的准确性和可重复性的评估。
今年早些时候,Justin Clark领导了一项关于使用生成式AI工具帮助进行系统综述的研究。最终只找到15个已发表的研究,将AI的表现与人类的表现进行了充分比较。现有的AI模型在阅读和评估论文方面似乎做得不错,但在所有其他任务上表现很差,包括设计和执行彻底的文献搜索。
AI自动生成综述潜在的风险
科研人员在使用AI的过程中,可能产生高质量的综述,但也可能助长了大量低质量综述的快速产生。
未来,如果AI工具能够通过寻找诸如P-hacking(一种数据操纵形式)等明显迹象来帮助标记和过滤掉低质量的论文,科研人员也许就可以放心地让AI一键写综述文章。
还有人认为,将整合和理解世界上知识的能力放在不透明的,追逐盈利的公司手中是不合适的。Justin Clark希望看到非营利组织建设和仔细测试AI工具。“我们只是想谨慎小心,” Justin Clark说,“我们希望确保技术帮助我们提供的答案是正确的。”
当然,使用AI生成综述也并非全是坏处,这会鼓励研究人员快速检查以前已经发表的文献,提高他们的知识水平,这是他们之前可能懒得做的事。
总的来说,科研人员普遍认为AI工具可以帮助他们提升研究的效率,但是AI距离真正充分阅读和理解指定研究领域,甚至自动化生成高质量的综述文章还有很大的差距。如果您已经借助AI完成了一篇比较满意的综述文章,但是心里还有些担心语言表达不自然或过于机械,文章内容可能有没发现的问题,不知道目标期刊是否适合投稿这类文章,建议您在投稿前使用理文编辑的稿件体检卡服务,对您的文章语言、内容和目标期刊进行全面的检查和评估,帮助您发现潜在问题,以便有针对性的完善文章,提升中稿概率。
如果您觉得这篇综述文章可能需要多次修改,但是又不想频繁请款,建议您直接使用全程语言保障服务,一次付费即可享受同领域母语专家多轮润色直至发表。更可限时升级为金牌全程语言保障服务,可以免费享受以下三个价值千元的投稿支持服务中的任意一项,更进一步提升稿件接收率:
转载本文请联系原作者获取授权,同时请注明本文来自理文编辑科学网博客。
链接地址:https://wap.sciencenet.cn/blog-288924-1464097.html?mobile=1
收藏