罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣: 物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

强化学习后训练LLM大模型有没有上限?

已有 157 次阅读 2025-11-14 19:10 |个人分类:科研感想|系统分类:科研笔记

                                             强化学习后训练LLM大模型有没有上限? 

       强化学习擅长“专业化”,强化学习相当于用手术刀,改变基础大模型的“脑道”通路,因此能够表现出更智能、 更专业、更在行,(如同艺术家的雕塑过程)。但强化学习训练重塑基础大模型,有没有上限? 

      首先思考一下,在这个后训练的过程中,基础模型到底有没有真正学习到新的知识?或者它到底是如何学习到新的知识的?如果新的知识,通过调节原有的模型的权重来实现,那么,就犹如,一棵定型长成的树(其枝干基本固定不动,如同在炼丹炉冶炼的具有固定属性的模型),所谓学到新的知识,无非就是换一下树(基础固有模型)上的叶子、挂枝条的果实,而无法能够本质上修剪树的主要枝干---学成的基础大模型的固定构架-这些构架使得大模型具有通用性和泛化性,也就是所谓的它能够具有的智能---反之,如果我们能够修剪、形变了其基础模型的足够多的主要枝干---大模型将会变傻(智能下降),从而失去了所谓其智能的通用及泛化性。由此而推断,也就是目前已有强化学习训练基础大模型的后训练方式,必然有其上限(可持续的后经验学习有其ceiling,而最终必须寻找其他道路)。

        那么,如此假设的话,如何解决这个问题呢?

        一种观点认为将物理世界的经验融入LLM基础大模型,让基础大模型后续学习而获得更强的智能(适应物理世界)。但这条道路能够走通的前提是,目前基础大模型具有能够容纳新经验的可塑性(可持续学习性),但显然如前所述,目前的大模型训练完了,就固定了(固化的模型dead model),你在训练它变傻之前,就到顶了(如同过去人读天书,天书最终没有读懂,而成疯上屋顶了)。此路的解决办法,是不断研究如何精炼基础大模型,研究如何训练出具有更强可塑性(可后训练学习性)的大模型(当然,相关的一种观点坚持,通过文本,甚至多模态信息,不断探索,而最终(通过文本、图像等)能够训练出不用后训练和物理经验学习的真正的智能大模型)。

        当然,另外一种未知的探索之路,在于创新出与目前不同的基础大模型的方法,使得大模型具有一种可持续学习的架构(如同动物的大脑,既有遗传的先验知识模型,更重要在于大脑的架构,能够持续学习新的知识,并保有已有的遗传的先验通用智能)。但问题是,所谓目前的最为厉害的语言大模型智能体,更加擅长语言文本相关的,能够在记忆的文本中找到的解决问题的最优路径,也就是它更加喜欢和擅长,在文本学习(训练)建立的虚拟现实(现实物理社会世界的数字孪生映射)中最优化, 从而穷于应对人类物理社会世界的复杂、多样与细腻感知的应用需求。

       PS:以上个人观点,欢迎讨论、批评指正。



https://wap.sciencenet.cn/blog-451666-1510268.html

上一篇:《人工智能的新发展与高校教师教科研开展》-ppt
收藏 IP: 27.219.74.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-11-14 21:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部