孙学军
用于学术研究的最佳AI工具《自然》 精选
2025-2-19 08:16
阅读:6006

用于研究的最佳AI工具是什么?《自然》杂志的指南

有许多大型语言模型可供选择,有些擅长编码,而另一些则更擅长综合信息。

几乎每周都会发布一款新的、看似更令人印象深刻的人工智能(AI)工具,研究人员纷纷涌入尝试使用它们。无论是想要编辑手稿、编写代码还是生成假设,研究人员现在可选择的生成式AI工具比以往任何时候都多。

每个大型语言模型(LLM)都适用于不同的任务。一些可以通过免费的聊天机器人使用,而另一些则使用付费的应用程序编程接口(API),这意味着它们可以与其他软件集成。还有一些可以下载,使研究人员能够构建自己的定制模型。

 

总部位于华盛顿州西雅图的弗雷德·哈钦森癌症中心的数据科学家嘉莉·赖特(Carrie Wright)表示,尽管大型语言模型能产生类似人类的回答,但它们都仍然太容易出错,不能单独使用。

 

那么,哪种大型语言模型最适合完成什么任务呢?在这里,研究人员与《自然》杂志分享了他们目前的最爱,以帮助有需要的人。

 

o3 - mini(推理器)

位于加利福尼亚州旧金山的OpenAI在2022年通过其免费使用的ChatGPT聊天机器人将大型语言模型引入了人们的视野。科学家们主要将该聊天机器人用于查找信息或作为写作助手,例如起草摘要,但较新的模型正在拓宽这项技术的潜在用途。去年9月,OpenAI推出了自那以来最重要的进展——o1“推理模型”,令科学家们惊叹不已,并在12月推出了更先进的o3。这两种推理模型的工作速度都比单独的大型语言模型慢,因为它们经过训练,可以逐步回答问题。这种“思维链”过程旨在模拟人类推理,帮助它们突破了科学和数学领域的艰难基准测试。这也使它们擅长技术任务,例如解决编码问题和重新格式化数据。

1月20日,杭州鲜为人知的初创公司DeepSeek推出了一款竞争型推理器后,OpenAI推出了一系列新工具作为回应。其中包括快速的o3 - mini——一种对注册聊天机器人用户免费的推理器——以及“深度研究”功能,它允许一些付费用户创建能够综合来自数百个网站的信息并带有引用的报告,类似于进行文献综述。旧金山初创公司FutureHouse的化学家兼AI专家安德鲁·怀特(Andrew White)表示,这些模型结合使用时效果出色。

英国牛津大学的数学家兼AI研究人员西蒙·弗里德(Simon Frieder)表示,在拆解新数学证明中不熟悉的概念等任务方面,o3 - mini做得“非常好”。但他也说,即使是最好的模型“也远远比不上一位数学家”。

 

DeepSeek(全能型)

上个月推出的DeepSeek - R1的能力与o1相当,但通过API使用的成本仅为其一小部分。它也与OpenAI的模型不同,因为它是开放权重的,这意味着尽管其训练数据尚未发布,但任何人都可以下载基础模型并根据自己的特定研究项目进行定制。怀特说,R1“刚刚开启了一种新范式”,在这种范式下,社区,尤其是资源相对较少的社区,可以构建专业的推理模型。

运行完整的模型需要使用强大的计算芯片,而许多学者并不具备。但香港中文大学(深圳)的计算机科学家王本友等研究人员正在创建可以在单台机器上运行或训练的版本。怀特说,与o1一样,DeepSeek - R1的强项是数学问题和编写代码。但它在生成假设等任务方面也很出色。他说,这是因为DeepSeek选择完整地公布模型的“思维过程”,这使研究人员能够更好地细化后续问题,并最终改进其输出结果。这种透明度对医学诊断也可能非常有帮助。王本友正在实验中对R1进行调整,利用该模型类似推理的能力来构建“从患者评估到诊断和治疗建议的清晰逻辑路径”。

DeepSeek - R1也有一些缺点。该模型似乎有一个特别长的“思维”过程,这会减慢它的速度,使其在查找信息或头脑风暴方面的用处变小。对其API和聊天机器人输入数据安全性的担忧,已导致多个政府禁止国家机构的工作人员使用该聊天机器人。与商业竞争对手相比,DeepSeek似乎在减轻其模型产生有害输出方面采取的措施较少。添加过滤器以防止此类输出(例如制造武器的指令)需要时间和精力。西蒙说,尽管这不太可能是故意的,但“缺乏防护措施令人担忧”。

OpenAI还暗示,DeepSeek可能对其模型进行了“不当提炼”,指的是一种根据另一种算法的输出来训练模型的方法,这是OpenAI的使用条件所禁止的。

在本文发表之前,无法联系到DeepSeek对这些批评发表评论。

一些研究人员认为这种提炼很常见,并乐于使用R1,但另一些人则对使用可能面临未来诉讼的工具持谨慎态度。巴黎EIT Manufacturing专门研究AI法律的律师安娜·卡塔琳娜·德·阿伦卡尔(Ana Catarina De Alencar)表示,如果使用该模型被认为违反了期刊的道德标准,使用R1的科学家有可能被迫撤回论文。阿伦卡尔说,类似的情况也可能适用于OpenAI和其他被指控侵犯知识产权的公司的模型使用。新闻机构声称,这些公司未经许可就使用新闻内容来训练他们的模型。

 

Llama(主力型)

Llama长期以来一直是研究界常用的大型语言模型。它是由位于加利福尼亚州门洛帕克的Meta AI在2023年首次发布的一系列开放权重模型,仅通过开放科学平台Hugging Face,Llama的各种版本就已被下载超过6亿次。弗雷德·哈钦森癌症中心的数据科学家伊丽莎白·汉弗莱斯(Elizabeth Humphries)说,它可以被下载并在此基础上进行开发,“这可能就是Llama受到研究界欢迎的原因”。

赖特说,在处理专有或受保护的数据时,能够在个人或机构服务器上运行大型语言模型至关重要,这样可以避免敏感信息反馈给其他用户或开发者。

研究人员已经在Llama模型的基础上构建了能够预测材料晶体结构以及模拟量子计算机输出的大型语言模型。北卡罗来纳大学教堂山分校的机器学习科学家陈天龙表示,Llama很适合模拟量子计算机,因为相对容易对其进行调整,使其理解专业的量子语言。

但怀特说,Llama要求用户请求访问权限,这对一些人来说是个小麻烦。他补充说,因此,其他开放模型,如西雅图艾伦人工智能研究所开发的OLMo,或杭州的中国公司阿里云构建的Qwen,现在往往成为研究中的首选。DeepSeek高效的基础V3模型也是构建科学模型的竞争基础。

 

Claude(编码型)

西蒙说,在硅谷,许多人都非常信赖Claude 3.5 Sonnet来编写代码。由旧金山的AI公司Anthropic开发的Claude 3.5 Sonnet还可以在处理文本的同时解读图表等视觉信息。此外,它还有一种模式,可以远程操作用户的计算机,有可能控制其他软件。

Claude模型的写作风格也备受赞誉。赖特说,当一些大型语言模型,如ChatGPT,去除技术语言时,也可能会去除重要的含义。Claude模型在使文字流畅的同时更能保留其原意。她说,在使用该模型开始撰写资助申请或对代码进行解释性注释时,这是一个优势。

哥伦布市俄亥俄州立大学的AI研究人员孙欢表示,在一项基于数据驱动的科学任务的基准测试中,Claude 3.5 Sonnet在编码挑战方面表现出色,这些任务来自生物信息学和计算化学等领域的真实论文。尽管Claude 3.5 Sonnet作为在线聊天机器人可以免费使用,但与OpenAI的模型一样,研究人员只有通过付费API才能实现完全集成。孙欢说:“随着更便宜的开源模型越来越强大,我相信人们会更喜欢它们,而不是闭源API。”

 

Olmo(真正的开放型)

想要了解大型语言模型内部运作的研究人员需要比Llama和DeepSeek提供的模型更透明的东西。Hugging Face的研究人员刘易斯·滕斯托尔(Lewis Tunstall)说,开源模型不仅是开放权重的,还附带算法的训练数据以及用于训练和评估模型的代码。目前,这类模型中表现最好的是OLMo 2。

研究此类模型可以让研究人员将大型语言模型中的偏差来源追溯到其训练数据,并通过更好地理解算法如何得出输出结果来提高效率。滕斯托尔说,目前,任何开放模型的主要缺点是研究人员通常需要一些专业知识才能运行它们,但随着为社区提供的免费实践课程越来越多,“进入门槛正日益降低”。

转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。

链接地址:https://wap.sciencenet.cn/blog-41174-1473649.html?mobile=1

收藏

分享到:

当前推荐数:10
推荐到博客首页
网友评论5 条评论
确定删除指定的回复吗?
确定删除本博文吗?