孙学军
中国廉价开源AI模型DeepSeek令科学家兴奋不已【自然】
2025-1-24 11:29
阅读:2290

中国廉价开源AI模型DeepSeek令科学家兴奋不已

DeepSeek-R1在推理任务上表现与OpenAI的o1相当,且向研究人员开放以供研究。

 图片1.png

iPhone屏幕上显示的DeepSeek网站。

中国公司DeepSeek去年推出了其大语言模型的一个版本。图片来源:Koshiro K/阿拉米图片社

 

一款名为DeepSeek-R1的中国造大语言模型,作为OpenAI的o1等 “推理” 模型的平价开源竞品,正令科学家们兴奋不已。

这些模型通过类似于人类推理的过程,逐步生成回答。这使得它们在解决科学问题方面比早期的语言模型更为擅长,在研究中也可能大有用处。1月20日发布的R1的初步测试表明,它在化学、数学和编程等特定任务上的表现与o1不相上下。o1在9月由OpenAI发布时,曾令研究人员赞叹不已。

“这太疯狂了,完全出乎意料,” 英国AI咨询公司DAIR.AI的联合创始人、AI研究员埃尔维斯·萨拉维亚在X平台(原推特)上写道。

R1脱颖而出还有另一个原因。打造该模型的杭州初创公司DeepSeek以 “开放权重” 形式发布了它,这意味着研究人员可以研究该算法并在此基础上进行开发。该模型基于MIT许可协议发布,可免费复用,但由于训练数据尚未公开,所以并不被认为是完全开源的。

“DeepSeek的开放性相当了不起,” 德国埃尔朗根马克斯·普朗克光科学研究所 “人工科学家实验室” 的负责人马里奥·克伦表示。他说,相比之下,位于加州旧金山的OpenAI打造的o1和其他模型,包括其最新成果o3,“本质上都是黑箱”。

DeepSeek尚未公布训练R1的全部成本,但它向用户收取的运行费用约为o1的三十分之一。该公司还创建了R1的小型 “蒸馏” 版本,让计算能力有限的研究人员也能试用该模型。“用o1做一个实验要花300多英镑,而用R1不到10美元,” 克伦说,“这是一个巨大的差异,肯定会对其未来的应用产生影响。”

挑战模型

R1是中国大语言模型蓬勃发展的一部分。DeepSeek脱胎于一家对冲基金,上个月它发布了一款名为V3的聊天机器人,尽管预算极为有限,却超越了主要竞争对手,从而从相对默默无闻中崭露头角。专家估计,训练该模型所需的硬件租赁成本约为600万美元,而Meta的Llama 3.1 405B使用了11倍的计算资源,成本超过6000万美元。

围绕DeepSeek的热议点之一在于,尽管美国实施出口管制,限制中国公司获取专为AI处理设计的最佳计算机芯片,它仍成功打造出了R1。“它诞生于中国这一事实表明,资源利用效率比单纯的计算规模更为重要,” 华盛顿州西雅图的AI研究员弗朗索瓦·肖莱说。

DeepSeek的进展表明,“美国曾经被认为拥有的领先优势已大幅缩小,” 华盛顿州贝尔维尤的技术专家阿尔文·王·格雷林在X平台上写道,他就职于台湾的沉浸式技术公司HTC。“两国需要采取合作方式来开发先进的AI,而不是继续目前这种没有赢家的军备竞赛方式。”

思维链

大语言模型通过数十亿文本样本进行训练,将文本切割成称为 “词元” 的单词片段,并学习数据中的模式。这些关联使模型能够预测句子中的后续词元。但是,大语言模型容易编造事实,这种现象被称为 “幻觉”,并且常常难以推理解决问题。

o1一样,R1使用 “思维链” 方法来提高大语言模型解决更复杂任务的能力,包括有时回溯并评估其方法。DeepSeek通过强化学习对V3进行 “微调” 打造出了R1,该模型因得出正确答案,以及以勾勒出 “思维” 的方式解决问题而得到奖励。

 AI竞品:条形图展示了DeepSeek进行的测试结果,测试了其三个版本的大语言模型与OpenAI的o1模型在数学、编码和推理任务上的表现。DeepSeek-R1在数学和编码基准测试中击败或媲美o1。来源:DeepSeek

英国爱丁堡大学的AI研究员李文达表示,计算能力有限促使该公司 “在算法上进行创新”。在强化学习过程中,团队在每个阶段估算模型的进展,而不是使用单独的网络进行评估。英国剑桥大学的计算机科学家马泰亚·亚姆尼克说,这有助于降低训练和运行成本。研究人员还使用了 “专家混合” 架构,使模型仅激活与每个任务相关的自身部分。

在随模型发布的技术论文中报告的基准测试中,DeepSeek-R1在OpenAI创建的MATH-500数学问题集上得分97.3%,在Codeforces竞赛中超过了96.3%的人类参与者。这些表现与o1的能力相当;o3未纳入比较范围(见 “AI竞品”)。

很难判断基准测试是否能反映模型真正的推理或泛化能力,还是仅仅反映其通过此类测试的能力。但剑桥大学的计算机科学家马尔科·多斯桑托斯表示,由于R1是开放的,研究人员可以了解它的思维链。“这使得模型的推理过程更具可解释性,” 他说。

科学家们已经在测试R1的能力。克伦要求这两个竞争模型根据趣味性对3000个研究想法进行排序,并将结果与人工排序进行比较。在这项测试中,R1的表现略逊于o1。但克伦说,R1在量子光学的某些计算上击败了o1。“这相当令人印象深刻。” 

转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。

链接地址:https://wap.sciencenet.cn/blog-41174-1470171.html?mobile=1

收藏

分享到:

当前推荐数:1
推荐人:
推荐到博客首页
网友评论1 条评论
确定删除指定的回复吗?
确定删除本博文吗?