氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

中国廉价开源AI模型DeepSeek令科学家兴奋不已【自然】

已有 2291 次阅读 2025-1-24 11:29 |系统分类:博客资讯

中国廉价开源AI模型DeepSeek令科学家兴奋不已

DeepSeek-R1在推理任务上表现与OpenAI的o1相当,且向研究人员开放以供研究。

 图片1.png

iPhone屏幕上显示的DeepSeek网站。

中国公司DeepSeek去年推出了其大语言模型的一个版本。图片来源:Koshiro K/阿拉米图片社

 

一款名为DeepSeek-R1的中国造大语言模型,作为OpenAI的o1等 “推理” 模型的平价开源竞品,正令科学家们兴奋不已。

这些模型通过类似于人类推理的过程,逐步生成回答。这使得它们在解决科学问题方面比早期的语言模型更为擅长,在研究中也可能大有用处。1月20日发布的R1的初步测试表明,它在化学、数学和编程等特定任务上的表现与o1不相上下。o1在9月由OpenAI发布时,曾令研究人员赞叹不已。

“这太疯狂了,完全出乎意料,” 英国AI咨询公司DAIR.AI的联合创始人、AI研究员埃尔维斯·萨拉维亚在X平台(原推特)上写道。

R1脱颖而出还有另一个原因。打造该模型的杭州初创公司DeepSeek以 “开放权重” 形式发布了它,这意味着研究人员可以研究该算法并在此基础上进行开发。该模型基于MIT许可协议发布,可免费复用,但由于训练数据尚未公开,所以并不被认为是完全开源的。

“DeepSeek的开放性相当了不起,” 德国埃尔朗根马克斯·普朗克光科学研究所 “人工科学家实验室” 的负责人马里奥·克伦表示。他说,相比之下,位于加州旧金山的OpenAI打造的o1和其他模型,包括其最新成果o3,“本质上都是黑箱”。

DeepSeek尚未公布训练R1的全部成本,但它向用户收取的运行费用约为o1的三十分之一。该公司还创建了R1的小型 “蒸馏” 版本,让计算能力有限的研究人员也能试用该模型。“用o1做一个实验要花300多英镑,而用R1不到10美元,” 克伦说,“这是一个巨大的差异,肯定会对其未来的应用产生影响。”

挑战模型

R1是中国大语言模型蓬勃发展的一部分。DeepSeek脱胎于一家对冲基金,上个月它发布了一款名为V3的聊天机器人,尽管预算极为有限,却超越了主要竞争对手,从而从相对默默无闻中崭露头角。专家估计,训练该模型所需的硬件租赁成本约为600万美元,而Meta的Llama 3.1 405B使用了11倍的计算资源,成本超过6000万美元。

围绕DeepSeek的热议点之一在于,尽管美国实施出口管制,限制中国公司获取专为AI处理设计的最佳计算机芯片,它仍成功打造出了R1。“它诞生于中国这一事实表明,资源利用效率比单纯的计算规模更为重要,” 华盛顿州西雅图的AI研究员弗朗索瓦·肖莱说。

DeepSeek的进展表明,“美国曾经被认为拥有的领先优势已大幅缩小,” 华盛顿州贝尔维尤的技术专家阿尔文·王·格雷林在X平台上写道,他就职于台湾的沉浸式技术公司HTC。“两国需要采取合作方式来开发先进的AI,而不是继续目前这种没有赢家的军备竞赛方式。”

思维链

大语言模型通过数十亿文本样本进行训练,将文本切割成称为 “词元” 的单词片段,并学习数据中的模式。这些关联使模型能够预测句子中的后续词元。但是,大语言模型容易编造事实,这种现象被称为 “幻觉”,并且常常难以推理解决问题。

o1一样,R1使用 “思维链” 方法来提高大语言模型解决更复杂任务的能力,包括有时回溯并评估其方法。DeepSeek通过强化学习对V3进行 “微调” 打造出了R1,该模型因得出正确答案,以及以勾勒出 “思维” 的方式解决问题而得到奖励。

 AI竞品:条形图展示了DeepSeek进行的测试结果,测试了其三个版本的大语言模型与OpenAI的o1模型在数学、编码和推理任务上的表现。DeepSeek-R1在数学和编码基准测试中击败或媲美o1。来源:DeepSeek

英国爱丁堡大学的AI研究员李文达表示,计算能力有限促使该公司 “在算法上进行创新”。在强化学习过程中,团队在每个阶段估算模型的进展,而不是使用单独的网络进行评估。英国剑桥大学的计算机科学家马泰亚·亚姆尼克说,这有助于降低训练和运行成本。研究人员还使用了 “专家混合” 架构,使模型仅激活与每个任务相关的自身部分。

在随模型发布的技术论文中报告的基准测试中,DeepSeek-R1在OpenAI创建的MATH-500数学问题集上得分97.3%,在Codeforces竞赛中超过了96.3%的人类参与者。这些表现与o1的能力相当;o3未纳入比较范围(见 “AI竞品”)。

很难判断基准测试是否能反映模型真正的推理或泛化能力,还是仅仅反映其通过此类测试的能力。但剑桥大学的计算机科学家马尔科·多斯桑托斯表示,由于R1是开放的,研究人员可以了解它的思维链。“这使得模型的推理过程更具可解释性,” 他说。

科学家们已经在测试R1的能力。克伦要求这两个竞争模型根据趣味性对3000个研究想法进行排序,并将结果与人工排序进行比较。在这项测试中,R1的表现略逊于o1。但克伦说,R1在量子光学的某些计算上击败了o1。“这相当令人印象深刻。” 



https://wap.sciencenet.cn/blog-41174-1470171.html

上一篇:氢气生物活性的理论评估
下一篇:水分解绿氢能否代替石化能源?《科学》
收藏 IP: 117.143.182.*| 热度|

1 池德龙

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-4-28 12:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部