twhlw的个人博客分享 http://blog.sciencenet.cn/u/twhlw

博文

人机环境系统智能中的扩展计算与经验学习 精选

已有 561 次阅读 2025-6-9 10:08 |个人分类:2025|系统分类:科研笔记

理查德·萨顿(Richard Sutton)作为强化学习领域的奠基人,提出的扩展计算与经验学习理念,强调通过大规模计算和智能体与环境的直接交互来获取经验,从而推动智能的发展。这一理念意味着未来智能系统的发展将从单纯依赖人类数据和指令的人机交互模式,逐渐转向更加自主、动态的机环交互模式。在机环交互中,智能体通过与环境的持续互动来学习和适应,这种模式与人机环境系统智能的核心思想高度契合,即智能系统需要在真实环境中通过与人类和环境的交互来不断优化自身行为,实现更高效、更智能的决策和行动。因此,萨顿的观点不仅为AI的未来发展指明了方向,也为构建更加自然、高效的人机环境系统智能提供了理论支持。

一、萨顿认为扩展计算与经验学习才是未来

萨顿对大模型和扩展计算的看法具有一定的独特性,他对当前大模型的发展方向提出了质疑,认为未来的AI发展需要更多地依赖扩展计算和经验驱动的学习,而不是单纯依赖人类数据和语言大模型。

萨顿认为,通过语言大模型方向来实现智能没有前途。他指出,尽管大语言模型展示了计算、网络和学习的潜力,但它们在某些方面让人失望,因为它们缺乏行动、目标以及对真实性的判断能力。萨顿强调,人类数据已经接近极限,继续依赖人类数据来推动AI发展是不可持续的。他认为,AI需要从“人类数据时代”转向“经验时代”,即通过与环境的交互来获取经验,而不是依赖预设的人类数据。

萨顿在2019年的文章《The Bitter Lesson》(《苦涩的教训》)中强调,AI研究的一大教训是过于依赖人类经验和知识,而忽视了可扩展计算的力量。他认为,利用大规模算力是推动AI发展的关键。萨顿进一步指出,扩展计算需要与“经验”相结合,而不是单纯依赖人类数据。他提出,未来的AI系统应该能够通过与环境的交互来学习和适应,这种经验驱动的学习方式将更好地发挥扩展计算的优势。

理查德·萨顿认为大模型可能会在五年内被抛弃,而扩展计算才是未来,目前的大模型主要依赖于不断增加的计算资源和数据量来提升性能,但萨顿指出,这种方法并不是解决所有问题的万能钥匙。随着模型规模的不断扩大,其带来的性能提升逐渐趋于平缓,投入与回报不成正比。如GPT-5迟迟未能问世,可能就说明规模扩张的效果已经不太明显。大模型主要通过学习大量的预处理数据来生成内容,但这种学习方式缺乏对真实世界的理解和适应能力。它们无法像人类一样通过与环境的交互和经验积累来学习,因此难以实现真正的智能。

强化学习的核心在于让智能体通过与环境的交互来学习,通过试错和奖励机制来优化决策。这种方法更接近人类的学习方式,能够使AI系统具备更强的适应性和灵活性。强化学习可以帮助AI系统更好地进行长期规划和抽象思考。例如,通过强化学习,AI可以学会将复杂任务分解为多个小步骤,从而更高效地解决问题。萨顿认为,未来的AI系统应该是去中心化的,由多个具有不同目标和能力的智能体组成。这些智能体可以通过强化学习独立地追求自己的目标,同时通过协作来实现更复杂的任务。

萨顿在《苦涩的教训》中指出,通用的计算方法(如搜索和学习)能够随着计算资源的增加而不断扩展。这意味着,未来AI的发展应该更多地依赖于这些能够灵活扩展的方法,而不是单纯地追求模型规模。扩展计算可以帮助AI系统更好地应对复杂多变的现实环境。通过不断扩展计算能力和优化算法,AI可以更有效地学习和适应新的情境。

萨顿认为,未来的AI系统应该能够像人类一样自主地学习和适应。这意味着AI需要具备更强的探索能力和对未知的适应能力,而不是依赖于预设的知识和数据。实现真正的智能还需要跨学科的研究和创新。萨顿本人也进行了大量跨学科的研究,试图从心理学等其他领域汲取灵感。

二、萨顿的思想与人机环境系统智能

萨顿认为,经验是AI的终极数据,智能体通过与环境的交互获得经验,从而实现自主学习和适应。这种经验驱动的学习方式与人机环境系统智能的理念高度契合,即智能系统需要在真实环境中通过与人类和环境的交互来不断优化自身行为。如具身智能(Embodied Intelligence)强调智能体通过身体与环境的互动来学习,这与萨顿的观点一致。对人机环境系统智能的启示包括强调交互性,人机环境系统智能强调智能体与环境的动态交互,而萨顿的经验学习理念也强调通过与环境的互动来获取经验。这意味着未来的AI系统需要更多地在真实环境中进行训练,而不是仅仅依赖静态数据。同时,注重去中心化与多样性,萨顿提到,不同的智能体可以有不同的目标和奖励信号,这种去中心化的现象有助于智能体在复杂环境中更好地运作,这就为构建多智能体的人机环境系统提供了理论支持,强调系统中各智能体的独立性和多样性。

萨顿认为AI的发展是一场马拉松,而不是短跑,人机环境系统智能的构建也需要长期的规划和持续的优化,而不是追求短期的突破。概括而言,萨顿关于扩展计算与经验学习的思想,为未来人机环境系统智能的发展提供了重要的理论基础和应用趋势。

三、智能的拓扑:从人机交互到机环交互

从人机交互(Human-Computer Interaction, HCI)和机环交互(Machine-Environment Interaction, MEI)涉及到智能系统中各个组成部分之间的连接、交互和协同方式,以及这些拓扑结构对系统性能和智能水平的影响。

1、人机交互中的拓扑结构

人机交互中的拓扑结构可以分为多个层次,包括物理拓扑、逻辑拓扑、认知拓扑和价值拓扑:物理拓扑指的是人与机器之间通过物理设备(如键盘、鼠标、屏幕等)进行交互的网络结构,如智能家居系统中传感器与控制设备之间的连接关系;逻辑拓扑涉及数据和信息在人机系统中的流动和处理方式,如互联网和局域网的拓扑结构会影响人机交互的效率;认知拓扑关注人与机器之间的知识共享和理解方式,如通过自然语言处理和机器学习技术,机器能够理解人类的意图并做出响应;价值拓扑强调人与机器之间共享的价值观念和决策准则,在医疗诊断等系统中,机器的决策需要符合人类的伦理和道德标准。

2、机环交互中的拓扑结构

机环交互中的拓扑结构则更侧重于机器与环境之间的连接和交互方式:环境感知拓扑,机器通过传感器网络感知环境信息,如温度、湿度、光照等,这些传感器的分布和连接方式构成了机环交互的感知拓扑;行动执行拓扑,机器通过执行器(如机械臂、电机等)对环境进行操作。执行器的布局和协同方式决定了机环交互的行动拓扑;动态适应拓扑,机器需要根据环境的变化动态调整其行为和拓扑结构,无人机编队在飞行过程中会根据环境障碍物调整队形,形成动态的环拓扑结构。

3、从人机交互到机环交互的演变

随着技术的发展,智能系统的拓扑结构正在从单纯的人机交互向机环交互扩展。传统的人机交互主要关注人与机器之间的直接交互,忽略了机器与环境之间的复杂关系,所以在处理复杂任务时常常会受到限制。机环交互强调机器与环境的深度融合,使机器能够在动态环境中自主学习和适应,如自动驾驶汽车中,车辆不仅需要与驾驶者交互,还需要与道路、交通信号和其他车辆等环境因素进行交互。从人机交互到机环交互的演变,意味着智能系统的拓扑结构需要更加复杂和动态,从简单的星形拓扑(人机交互)向复杂的网状拓扑(机环交互、人机环境交互)转变。

4、智能的拓扑与未来发展方向

智能的拓扑结构在未来的发展中将更加注重以下几个方面:(1)多模态交互:未来的智能系统将整合多种交互方式,包括视觉、听觉、触觉等,以实现更自然和高效的人机交互。(2)动态拓扑调整:智能系统需要能够根据任务需求和环境变化动态调整其拓扑结构。例如,多智能体系统可以根据任务的复杂性动态调整其通信和协作拓扑。(3)环境融合:智能系统将更加深入地融入环境,通过与环境的持续交互来学习和优化自身行为。

综上所述,智能的拓扑从人机交互向机环交互的演变,反映了智能系统在复杂环境中的适应性和自主性需求。未来智能系统的发展将更加注重多模态交互、动态拓扑调整和环境融合,以实现更高效、更智能、更多样的人-机-环境系统交互方式。

无标题2.jpg

无标题.jpg



https://wap.sciencenet.cn/blog-40841-1489049.html

上一篇:从“数”到“据”:概念形成的过程
收藏 IP: 124.64.126.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-6-9 13:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部