科学网-中国廉价开源AI模型DeepSeek令科学家兴奋不已【自然】-孙学军的博文

切换到桌面版

中国廉价开源AI模型DeepSeek令科学家兴奋不已【自然】

2025-1-24 11:29

阅读：5365

中国廉价开源AI模型DeepSeek令科学家兴奋不已

DeepSeek-R1在推理任务上表现与OpenAI的o1相当，且向研究人员开放以供研究。

图片1.png

iPhone屏幕上显示的DeepSeek网站。

中国公司DeepSeek去年推出了其大语言模型的一个版本。图片来源：Koshiro K/阿拉米图片社

一款名为DeepSeek-R1的中国造大语言模型，作为OpenAI的o1等 “推理” 模型的平价开源竞品，正令科学家们兴奋不已。

这些模型通过类似于人类推理的过程，逐步生成回答。这使得它们在解决科学问题方面比早期的语言模型更为擅长，在研究中也可能大有用处。1月20日发布的R1的初步测试表明，它在化学、数学和编程等特定任务上的表现与o1不相上下。o1在9月由OpenAI发布时，曾令研究人员赞叹不已。

“这太疯狂了，完全出乎意料，” 英国AI咨询公司DAIR.AI的联合创始人、AI研究员埃尔维斯·萨拉维亚在X平台（原推特）上写道。

R1脱颖而出还有另一个原因。打造该模型的杭州初创公司DeepSeek以 “开放权重” 形式发布了它，这意味着研究人员可以研究该算法并在此基础上进行开发。该模型基于MIT许可协议发布，可免费复用，但由于训练数据尚未公开，所以并不被认为是完全开源的。

“DeepSeek的开放性相当了不起，” 德国埃尔朗根马克斯·普朗克光科学研究所 “人工科学家实验室” 的负责人马里奥·克伦表示。他说，相比之下，位于加州旧金山的OpenAI打造的o1和其他模型，包括其最新成果o3，“本质上都是黑箱”。

DeepSeek尚未公布训练R1的全部成本，但它向用户收取的运行费用约为o1的三十分之一。该公司还创建了R1的小型 “蒸馏” 版本，让计算能力有限的研究人员也能试用该模型。“用o1做一个实验要花300多英镑，而用R1不到10美元，” 克伦说，“这是一个巨大的差异，肯定会对其未来的应用产生影响。”

挑战模型

R1是中国大语言模型蓬勃发展的一部分。DeepSeek脱胎于一家对冲基金，上个月它发布了一款名为V3的聊天机器人，尽管预算极为有限，却超越了主要竞争对手，从而从相对默默无闻中崭露头角。专家估计，训练该模型所需的硬件租赁成本约为600万美元，而Meta的Llama 3.1 405B使用了11倍的计算资源，成本超过6000万美元。

围绕DeepSeek的热议点之一在于，尽管美国实施出口管制，限制中国公司获取专为AI处理设计的最佳计算机芯片，它仍成功打造出了R1。“它诞生于中国这一事实表明，资源利用效率比单纯的计算规模更为重要，” 华盛顿州西雅图的AI研究员弗朗索瓦·肖莱说。

DeepSeek的进展表明，“美国曾经被认为拥有的领先优势已大幅缩小，” 华盛顿州贝尔维尤的技术专家阿尔文·王·格雷林在X平台上写道，他就职于台湾的沉浸式技术公司HTC。“两国需要采取合作方式来开发先进的AI，而不是继续目前这种没有赢家的军备竞赛方式。”

思维链

大语言模型通过数十亿文本样本进行训练，将文本切割成称为 “词元” 的单词片段，并学习数据中的模式。这些关联使模型能够预测句子中的后续词元。但是，大语言模型容易编造事实，这种现象被称为 “幻觉”，并且常常难以推理解决问题。

与o1一样，R1使用 “思维链” 方法来提高大语言模型解决更复杂任务的能力，包括有时回溯并评估其方法。DeepSeek通过强化学习对V3进行 “微调” 打造出了R1，该模型因得出正确答案，以及以勾勒出 “思维” 的方式解决问题而得到奖励。

AI竞品：条形图展示了DeepSeek进行的测试结果，测试了其三个版本的大语言模型与OpenAI的o1模型在数学、编码和推理任务上的表现。DeepSeek-R1在数学和编码基准测试中击败或媲美o1。来源：DeepSeek

英国爱丁堡大学的AI研究员李文达表示，计算能力有限促使该公司 “在算法上进行创新”。在强化学习过程中，团队在每个阶段估算模型的进展，而不是使用单独的网络进行评估。英国剑桥大学的计算机科学家马泰亚·亚姆尼克说，这有助于降低训练和运行成本。研究人员还使用了 “专家混合” 架构，使模型仅激活与每个任务相关的自身部分。

在随模型发布的技术论文中报告的基准测试中，DeepSeek-R1在OpenAI创建的MATH-500数学问题集上得分97.3%，在Codeforces竞赛中超过了96.3%的人类参与者。这些表现与o1的能力相当；o3未纳入比较范围（见 “AI竞品”）。

很难判断基准测试是否能反映模型真正的推理或泛化能力，还是仅仅反映其通过此类测试的能力。但剑桥大学的计算机科学家马尔科·多斯桑托斯表示，由于R1是开放的，研究人员可以了解它的思维链。“这使得模型的推理过程更具可解释性，” 他说。

科学家们已经在测试R1的能力。克伦要求这两个竞争模型根据趣味性对3000个研究想法进行排序，并将结果与人工排序进行比较。在这项测试中，R1的表现略逊于o1。但克伦说，R1在量子光学的某些计算上击败了o1。“这相当令人印象深刻。”

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。

链接地址：https://wap.sciencenet.cn/blog-41174-1470171.html?mobile=1

当前推荐数：1

推荐人：

池德龙

推荐到博客首页

网友评论1 条评论

该博文允许注册用户评论请点击登录