OpenAI O1 大模型范式的改变: LLM从炼大模型,到精炼大模型
OpenAI 刚刚公布了O1大模型,采用强化学习和思维链COT(Chain-of-thought),使大模型采用Thinking slow and step by step新的解决问题的方式,并借助强化学习和COT在训练和使用阶段,使得大模型LLM具有自我强化任务分步拆解与验证、多种并行搜索结果整合验证选优、自我对抗优化等能力,甚至借助强化学习RL和COT的加持,具有了LLM本身作为智能体的能力---自我学习与进化能力,也就是自我精炼的能力。
这其实,已经把LLM作为结合RL和COT(以后会有RL+X等各种方法),通过训练与使用,不断强化其推理及安全能力,应该是一种LLM大模型训练及使用模型的改变与递进:也就是从炼大模型,逐步变为精炼模型,让大模型本身具有智能体--不断进行自我学习的能力。
这一方面,解决了数据用尽,LLM还是很笨的问题。另外一方面,精炼的模型,由于本身具有自我纠正、自我强化及学习的能力,可以去掉冗余的大模型参数,释放掉不必要的(或者错误的)参数搜索空间,因此,未来模型可以变得更小。另外一个比较重要的影响是,有可能解决部分安全问题。因为深度学习及大模型的不可解释性,安全问题一直是悬而未决的影响应用的一个关键问题。而O1如果直接从出口,kill掉那些不安全的空间搜索产生的结果,这在一定程度上,从另外一个角度,保证了其部分安全性。
从释放的O1看,由于结合了RL和COT,也就是该模型的训练属于,对原有模型保持或者牺牲了部分类似ChatGPT等通用性后,专门针对推理能力弱的问题,解决原来模型不准确,表现为如幻觉(Hallucination),数不清一个单词含有几个r等问题,其实就是错误的generate时用到的与人类不对齐的错误搜索空间问题。因此,O1表现为一定的专业性,比如在科学领域和编程领域更加擅长等特点。当然,那些对推理能力要求低的其他功能,后续估计会扩展加入(比如,在原来的模型中就很好用),因此,这种RL+COT具有一定专业模型的特点。当然,如果这个技术成功,后续的RL+X,就可以训练出更多其他领域更加专业精准的模型。其背后关键的力量在于,LLM已经被看作是一个Agent的部分组件,不论在训练和使用中,都利用了强化学习这一自纠正、自激励的工具,使得LLM具有的一定的持续进化能力。当然,作为人,不也是这样吗?通过各种教育与学习,成为各种既有常识(common sense)和专业能力的各类人才。
当然,尽管O1应该算是利用数据制造软件智能体LLM大模型的范式的递进与改变,但人类通往所梦想的通用人工智能AGI还遥遥无及。但毕竟目前的包括LLM大模型的这些智能体的创造与利用,是人类利用计算机这类机器在制造拟人化智能工具方面,走在一条正确的道路上,因为正如强化学习之父Sutton所言:过去70年AI的苦涩教训证明,也许计算机最为擅长的仍然是:搜索(Search)与计算(computing)。
转载本文请联系原作者获取授权,同时请注明本文来自罗汉江科学网博客。
链接地址:https://wap.sciencenet.cn/blog-451666-1451139.html?mobile=1
收藏