好,奇文共欣赏,咱们就坐下来读。
R1 论文读下来,原来被 OpenAI 从 q* 开始到 o 系列,搞得神秘兮兮的所谓 System 2 慢思维的强化训练过程,一下子就变得清晰简单多了。
他们的主要发现是:
不用人造强化数据做监督学习微调(sft),利用多答案采样选优的再生数据来“硬做”强化学习,也一样可以学到慢思维的推理能力,这就是他们的 DeepSeek-R1-Zero,实际上是 follow Alpha-Zero 的思路。AlphaZero 在围棋这种非常单纯狭窄的场景,可以把 Zero 进行到底,排除了人类/人为的数据,最终成为绝对王者。
在更广一点的数学、代码和某些逻辑问题的推理场景,他们最终发现还是借助少量的 sft 人工数据更好。但也不过就是几千条的数据,做推理sft的“冷启动”,人工准备一点也不难。这就是他们的 DeepSeek-R1。
他们的 Zero 也走通了,达到了 OpenAI-o1-0912 的水平(o1的9月12日版本?)。其所以做 R1, 加入了sft冷启动的步骤,主要是因为机器完全自主学习出来的 Zero 的推理步骤可读性差、里面还混杂了不同的语言表达方式,这对进一步改良这个系统造成困扰,毕竟模型要“以人为本”,服务开发者和用户的。最终炼成的 R1 推理表现进一步提升,达到 OpenAI-o1-1217 (估计是12月17日版本的o1)的水平。
他们的创新和探索精神表现在,当 community 把 sft+rl 当成是后训练范式的时候,他们做 Zero,完全排除人工数据,验证了纯粹的rl对于推理能力的学习潜力。从 Zero 首先是学到了信心,体验了探索创新者的 aha moment,然后再回头加一些用于冷启动的高质量人工数据sft,再做实用的 R1 就有底气了。两个模型都开源,供人研究和验证,做得煞是漂亮。
DeepSeek 是化繁为简的大师。
强化学习中,直接砍掉了应该与policy模型平行迭代的 critic 模型,代之以简单的GRPO。critic 是评估每个步骤的价值模型,砍掉了等于是训练中一下子降低了一半的资源耗费。需要单独训练的奖励模型也省掉了,代之以简单的规则奖励。
咱们先看看GRPO (Group Relative Policy Optimization,分组相对策略优化) 是什么创新,为什么GRPO算法可以平替 Actor-Critic架构的PPO来优化模型。本质上,GRPO是一个无需critic模型的PPO变体。它通过组内统计计算优势值,而不是用critic网络评估价值。
具体说,GRPO 要求每个问题生成多个答案,形成一组,组内答案相互比较,计算每个答案的"好坏程度"(优势值):
优势值 = (当前答案的得分 - 组内平均分) / 组内标准差假设一道数学题,生成4个答案,得分分别是: 90, 80, 70, 60分;平均分 = 75。90分答案的优势值 = (90-75)/标准差。高于平均分的答案获得正优势值,反之为负。这样就不需要额外的评判模型 (Critic),通过组内比较,模型就知道哪些答案更好,强化学习的优化目标就是要提升生成好答案的概率。
GRPO 算法的优点:
训练效率高:不需要额外的 critic 模型,节省了大量计算资源。
训练稳定性好:用clip限制更新幅度,防止过度优化
实施简单:算法简单,易于实现。
GRPO简单易行又有效,为什么传统的强化学习要用critic模型呢?Actor-Critic 架构有其优势,包括:
全局评估:不受限于当前组内比较,可以评估答案的绝对质量
可学习复杂奖励:比如用户偏好、安全性等难以用规则定义的指标
单个答案也能评估:不需要同时生成多个答案
场景优势:早期RL主要用于线条很长的游戏和机器人,需要 critic 学习长期奖励
但GRPO表明,对于明确的任务(如数学、coding和逻辑题),只要能规模化做大强化学习,简单的组内比较也能达到模型优化的同样效果。这是强化学习“多快好省”的重要发现。
至于奖励模型,他们在 Zero 训练中完全弃之不用,而是用简单直接的奖励规则代之。只是在R1训练最后阶段的偏好对齐任务上(不是推理任务),才按照RLHF(人类反馈强化学习)的常规使用了 reward model(实际是对于自己基座模型V3中的奖励模型的复用)。原因如前所述,是人类偏好 (如安全性、有帮助性等) 涉及复杂的价值判断,难以用简单规则量化。对这类评估,还是沿用训练过的reward model来模拟人类判断。但推理任务,他们的探索表明完全可以只用简单的奖励规则 -- 因为正确性判断相对明确:math 有答案,code 可以编译和执行 unit testing。
还有什么能简化的,他们没有简化?
强化学习中的难缠的痛点之一是所谓过程奖励 Process Reward Model (PRM),就是深入到推理的每一步去评估。对此他们是“知难而退,敬而远之”,干脆绕过去:DeepSeek的强化是结果导向,不深究过程。论文说明他们选择不使用PRM的原因如下:
难以明确定义推理中的每个细节步骤 (难:绕过去)
难以判断中间步骤的正确性 (难:绕过去)
重新训练reward model需要额外资源,使流程复杂化 (复杂:能简则简)
模型评估会导致reward hacking:即神经模型可能学会欺骗奖励模型
就最后一条是出于神经模型本性上的短板考量,主要原则还是能简则简,能绕则绕。所以说,他们选择简单的规则奖励 + 答案验证的方案,是一个有意识的权衡选择。
就是说,明明简单的规则就可以确定奖励指向,为什么要训练叠床架屋的奖励模型呢?不过是查一下答案或测试一下code,判定结果的对错,加上判定格式是不是符合规范。R1 主打的奖励刺激属于规则绑定:例如,答案正确,奖励+1分;格式正确,奖励 +0.5;答案错误,“奖励”-1分;答案不具体,奖励 0分。
当然,这样做,在把推理拓展到数学、代码以外的任务的时候,可能行不通。但目前大家发力的重点主要就是数学和代码,而更加狭窄的长线条棋类和游戏场景,基本被传统RL攻克。尽管如此,绕过过程奖励仍然可能是潜在的软肋,理论上给结果正确,过程逻辑混乱留下了空间。
只关注答案对错,不问过程是怎么强化出长线条的复杂推理过程的呢?门道就在筛选答案的时候偏向于长答案,随着训练这就自然增加了 test time compute ,发展出对于复杂推理的应对能力。这使得 R1 的强化学习更易自主探索推理路径,成就了DeepSeek的这次突破和出圈。
与 GPT 的 next token prediction(ntp) 规模化以后可以涌现通用智能异曲同工,DeepSeek那帮年轻人发现,只要结果明确可判定,结果导向的强化学习可以自然涌现出复杂的内部推理能力,因为正确的结果需要推理。这个发现的意义,对于领域今后的深度推理的推进非同一般,可媲美GPT系列预训练时发现的 scaling law。
头部推理模型R1 的训练四阶段 :1. 推理冷启动:利用数千条高质量人工推理数据,例如:
# 收集高质量示例 Question: 求解方程 x^2 + 2x + 1 = 0 <think> 1. 识别这是一个二次方程 2. 系数: a=1, b=2, c=1 3. 使用求根公式: x = (-b ± √(b^2-4ac))/2a 4. 代入: x = (-2 ± √(4-4))/2 5. 化简: x = -1 </think> <answer>x = -1</answer>2. 推理强化学习:结果导向,再生数据的模版“留白” <think>.........</think>
设计简单模板让模型自主再生训练数据:<think>思考过程</think><answer>答案</answer>模型生成多个答案 -> 筛选正确答案 -> 加入强化学习的训练集
不添加任何人工偏见或策略提示,留下RL自主学习推理过程的空间:逐渐增加思考时间(test time compute)和tokens量,模型就自发涌现反思步骤等推理能力,这就是论文作者描述的 aha moment,令人动容的见证
GRPO算法采样多个答案,通过内部对比来优化模型
规则奖励:奖励答案正确 + 格式规范
前面提到,系统只验证最终答案,理论上无法保证中间推理步骤的正确性(可能学到"答案对但推理错"的模式),但实践似乎显示,只要强化学习足够充分和规模化,答案正确会自然导向推理步骤的正确性。根据K氏复杂性(Kolmogorov complexity)压缩理论,正确的推理导向正确的答案才是可靠解决方案的“最短程序”,这是无损压缩的终极目标。后训练强化学习的过程与预训练一样,都是对无损压缩的逼近。
DeepSeek 的探索再次表明,简单即美,scale为王。(一简遮三丑,你是服也不服? LOL)
天机就是,scale 是硬道理。简单架构/算法有利于真正的 scale up,只要目标清晰,一旦 scale 了,一切就自然搞定。
训练数据的源头模版再生数据的input 应该是来自两个源头,1 人工设计的数学题/编程题;2 公开基准测试题(如AIME)。
根据模版的再生数据的output流程:
Input: x^2 + 2x + 1 = 0 Model生成多个答案: Answer1: <think>[推理过程1]</think> <answer>x = -1</answer> Answer2: <think>[推理过程2]</think> <answer>x = -1</answer> Answer3: <think>[推理过程3]</think> <answer>x = 2</answer> 筛选: - 保留Answer1、2(答案正确) - 丢弃Answer3(答案错误)保留的答案作为推理再生数据加入训练集用于下轮迭代。所有再生训练数据都需要标准答案来评估正确性,这在来源中就给定了:
数学题:确定的数值答案
编程题:通过测试用例验证
逻辑推理:有明确的正确结论
有标准答案是规则奖励能工作的基础。对没有标准答案的任务(如写作),需要用其他方式评估质量,例如使用奖励模型。
3. 综合性微调:800k 条训练数据,其中推理 600k, 其他任务 200k
论文没说为什么按照这个比例选取微调数据,应该是根据经验。600k 推理数据是再生的,用的就是阶段2的推理模型。但这里有一个值得注意的插曲:在阶段2的推理强化学习中,再生数据必须是奖励规则可以判定的。但阶段3的推理数据,却突破了这个限制。阶段3的推理数据增加一些 reward rule 不能判定的 cases,既然简单的奖励规则无法判定,就找 V3 模型来判定。好像是说,当一道推理题(数学、coding或逻辑题)生成n个奖励规则难以评判优劣的结果的时候,就把这些结果和标准答案送给V3,让V3做裁判。
另外的200k数据呢?一部分是拿来主义,直接从他们自己的V3的原始finetune训练数据中选取;另一部分让 V3 生成数据,但要求V3不仅给答案,还要给思维链过程(就是要求它 step by step 输出结果)。这可以理解,这里虽然不是纯粹的长线条推理题,其他任务很多时候也是要有条理的。
4. 全局强化学习:这最后的强化学习很像是早就使用过的 RLHF,更注重人类偏好的对齐。但为了防止推理退化,在偏好对齐的同时,也强化了推理,用的还是规则奖励。而人类偏好对齐用的则是V3原有的奖励模型(这是唯一真正用到的奖励模型)。
整个过程还是相当清晰的,原则上可复现。
用R1再生数据去蒸馏小模型,提升其推理能力最后,Deepseek 的R1推理强化工作在蒸馏开源小模型方面也做得很牛,干翻了openAI 的 o1-mini 小模型。展示给世人看,开源 LLMs 开始全面逼近闭源模型。
但话说回来,没有这些巨烧钱的闭源模型在前面开路,并建立标杆,后来者也容易失去方向。现在这种局面非常好:让有钱的去砸银子。在金钱的赋能和压力下,不断开疆拓土。让deep“黑马”们在后面紧追不舍,而且还追赶得特别牛气。
令人印象深刻的是,R1 不是仅仅大幅度提升了推理能力(慢思维),在“传统”的知识能力方面比起它的基座模型V3也有显著提升。这可能是因为,推理能力的增强对于一些传统任务具有正面作用,但更应该归功于他们探索出来的四阶段训练R1的pipeline。
最后总结一下。
主要创新点:1. DeepSeek-R1-Zero: 首个仅通过强化学习(RL)训练的推理模型, 无需人工推理数据的监督微调(SFT)。展示了模型可以纯靠 RL 自主发展出推理能力。
2. DeepSeek-R1: 在 R1-Zero 基础上做以下改进:- 后训练阶段先用少量高质量数据进行冷启动SFT- 采用4阶段的后训练流程,两次SFT,两次RL- 性能可与 OpenAI-o1-1217 相媲美
3. 蒸馏技术: 成功将推理能力迁移到一系列开源小模型:- 1.5B 参数的模型就超越了 GPT-4 在数学方面的表现- 32B 和 70B 的模型创造了密集模型的新记录
关键技术细节:- 使用 GRPO (Group Relative Policy Optimization)算法,舍弃 Critic 模型- 采用基于规则的奖励系统, 舍弃奖励模型 PRM- 设计特定的训练模板引导模型再生数据进行自主学习:<think> is all we need for reasoning!
【笔者后记】
这两天莫名很兴奋。跟 deep啥 纠缠不休,今天才缓过气来 lol
硅谷老友群也热议不断:
Hongtao:DeepSeek若不快速大融资和上市, R1的18位主要贡献者估计很快就被国内外大厂抢光了[Grin]Core Contributors:Daya GuoDejian YangHaowei ZhangJunxiao SongRuoyu ZhangRunxin XuQihao ZhuShirong MaPeiyi WangXiao BiXiaokang ZhangXingkai YuYu WuZ.F. WuZhibin GouZhihong ShaoZhuoshu LiZiyi Gao当年DeepMind被迫卖给Google,因为founders被告知若不卖,就高薪挖人。挖走一两个作者,就少走大部分弯路了。
主要还是幻方的AI量化投资受挫, 因势利导做deepseek成功;开源后,国内外大家都沿着这路子去试。若不财大气粗起来,优势恐怕难以为继。
超大模型训表征,开源一蹴而就成。强化学习各求精,蒸馏定制缩小型。
内卷已经卷出墙,硅谷AI圈被激荡。OpenAI&Meta领头羊,都被鞭策加速闯。
Nick:复现DeepSeek貌似很容易。其实强化学习大家也都想到过,过去总觉得可能要花很多算力,少人试。貌似o1就是强化学习练出来的,但一些推理token他们没open。这可能迫使国内头部那两家加速上市过程。
立委:这类团队属于中华之光,国之重器。
他们写得基本够清晰了。让人担心他们下一步怎么保持这个势头和地位。很多神秘就是一层窗户纸。最大的功劳是他们同时也差不多捅破了o系列神秘面纱的窗户纸。
Nick:马上融一大笔钱,突击上市。除非手里还有更硬的牌。
马老师:好几家复现了deepseek,各家再各自探索,相信会是快速迭代的过程,有望再一次大发展。
Nick:也是个试金石,倒逼openAI看看还有啥新东西,是骡子是马拉出来溜溜。
Hongtao:给openai压力;更是 叫板meta, 争夺开源盟主地位
鲁总:OpenAI 的牌越来越少了。但SamA 希望通过心理战误导大众。之前发文强调过程奖励,O1 出来时放烟幕弹让人相信推断时使用复杂的搜索 ... 结果都应该没有用。
香港科技大学的团队说是也独立发现了RL涌现推理能力,不过只针对数学问题求解,但也特别指出使用输出格式奖励。
白老师:数学能力和编程能力是相通的。
不请贵的人是成功的很重要因素。
施总:哈哈。贵的不一定能干,能干的都比较贵。
刘总:主要是要用年轻人,岁数大的没戏。岁数大了,思维僵化,精力不行。当然,我说的是统计规律,个例总是有的。
立委:deepseek 不是常态,是冒尖。但 deepseek 这么一捅窗户纸,很多人就跟上了。不知道 它还有多少宝贝没有显露。否则 逐渐暗淡下去 也不是不可能的。
deepseek 之前,各种刷榜,也是内卷得一塌糊涂,也都刷榜刷到了世界先进水平。但没有哪家做到了 deepseek 这种硬气 震撼 和让人服气。一鸣惊人天下知。
Nick:估计每家都会短期内在数学能力上长足进步。豆包上周一周内就进步不小。窗户纸捅破,门槛也不是那么高。大概率o1也是这么做的,只不过内帮孙子比较鸡贼。
Liren:DeepSeek-R1告诉大家,你们都被PRM和MCTS误导了,其实只需要一个<thinking>标签就够了[Chuckle]
Nick:是啊,你写篇文章,“<thinking> is enough"
立委:就是留白。你留了白,系统就会给自主填上。
zero 的实践表明,根本不用想那么复杂,还要考虑怎么从各种不同推理任务中找到共同的思维链 patterns,等等。甚至也不管里面的逻辑是不是胡说八道,结果导向,最终,推理还是学出来了。预训练靠的是简单的 next token prediction,后训练推理靠的就是结果导向的强化自主学习。设计一个简单的模版就搞定了无穷的再生推理数据。
Nick:是啊,有了ToT和Gemini,话都在嘴边了。
Liren:增加在推理时的tokens来提升思考时间。
立委:秘方就是4步走:1 冷启动 2 强化 3 微调 4 再强化。zero 干脆省掉了 1 3 4,所以显得过于生猛,但 beautifully 证明了“硬启动”的强化学习也能涌现高级推理能力。r1 就是完善后训练的节奏和数据配比。很多应该就是经验,是摸索出来的 best practice,他们肯定有过很多其他失败的尝试,但还是摸着石头过了河。
马老师:感觉就是碰运气,不过沿着别人路走的永远没有运气。
立委:我觉得他们还有一些东西,所以才“肆无忌惮”。等于是他们推出了一个菜谱,这个菜谱做的菜比肩世界一流。但他们其实还有其他的菜谱,更高级,但不急于拿出来?
不是大道至简,而是大模型本身已经具备了强大的推理能力,它需要的只是:
1 足够的思考空间/时间/tokens量(<think>标签)2 正确的反馈信号(答案正确性)3. 探索优化的机会(GRPO采样选优)
复杂、难产、费力的PRM(过程奖励模型)和MCTS(蒙特卡洛树搜索路径空间)反而限制了模型的自主探索。这说明大模型的能力被我们低估了。
deepseek 的成功的先决条件是 v3,他们自己做出了世界前列的头部基础模型,他们自己知道怎么善用它的潜力。如果是借助于外部基础模型 GPT4o,就很难这么快做出r1,很多 v3 的资源和practice 就在 r1 过程中直接借用了。
马老师:在理。
Nick:So what's next? assuming everybody will have as strong math capabilities within a month
立委:AI for science?机器自动证明百年难题啥的;机器自动发明新药......
Nick: only two problems matter: Riemann Conjecture and P vs NP
马老师:大厂也许会用更大的模型,更多的数据,继续向大上走。
Nick:那肯定。我觉得Nvidia的生意会更好。
立委:deep 目前为止还是在追平,是人家先树立了标杆,它去对齐。多快好省。
deep 要真牛,再上一个台阶,需要自己树立标杆和方向。但这太难了。目前为止似乎还是只有敢于疯狂烧钱 敢于无限做大的那些狂人才在开疆拓土。
【相关】
转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。
链接地址:https://wap.sciencenet.cn/blog-362400-1470709.html?mobile=1
收藏