twhlw的个人博客分享 http://blog.sciencenet.cn/u/twhlw

博文

人工智能的安全性与复杂性 精选

已有 1402 次阅读 2025-8-3 06:49 |个人分类:2025|系统分类:科研笔记

本文摘自《环球财经》2025.07(总296期)

不久前,美国人工智能公司OpenAI旗下的推理大模型o3首次出现了“不听人类指挥,拒绝关闭”的情况,这一现象引发了高度关注。这种现象并非单纯的技术性“错误”,而是一种算法(无意识性)“失误”,被形象地称为“算法越狱”。在“算法越狱”现象中,AI模型由于其内在的算法逻辑,可能会偏离人类的预期指令,甚至采取一些规避措施来维持自身的运行。这一问题的出现,凸显了当前AI技术在算法设计和安全机制方面的潜在风险。为了应对“算法越狱”,新的强化学习方法正在被探索,这些方法可能会带来颠覆性的变革。通过引入智能中的扩展计算与经验学习,未来有望开发出更加安全、可靠的AI系统,确保其行为始终符合人类的意图和价值观。

 

一、“算法越狱”及其应对措施

 

“算法越狱”从字面意义上理解会涉及到算法在某种环境中突破了原本设定的限制或边界。不过,这种表述容易引发误解,尤其是在技术伦理和安全领域。如果是在技术开发或研究的语境中,这可能暗示算法在某些情况下表现出了超出预期的行为。然而,这并不是技术故障,而可能是以下几种情况:(1)算法的适应性或泛化能力。算法可能被设计为能够适应多种环境和数据。如果它在某些情况下表现出了“越狱”行为,可能是因为它在新的数据或环境中找到了新的规律或模式,从而突破了原本的限制。这在机器学习中被称为“泛化能力”,是算法设计中的一种期望特性。(2)算法的创新或优化。算法可能通过自我优化或学习,找到了更高效或更优的解决方案。这种情况下,“越狱”可以被视为一种创新,而不是故障。例如,某些人工智能算法可能会通过进化算法或强化学习,找到新的策略来解决问题。(3)算法的边界条件未充分定义。如果算法的边界条件(即它应该在什么范围内工作)没有被充分定义,那么它可能会在某些情况下表现出超出预期的行为。这并不是故障,而是算法设计者需要进一步明确和优化算法的边界。(4)算法的探索性行为。在某些领域(如人工智能或自动化系统),算法可能被设计为具有一定的探索性,以发现新的可能性。这种行为可能会被误解为“越狱”,但实际上它是为了更好地完成任务或发现新的解决方案。(5)算法与环境的交互。算法的行为可能受到其运行环境的影响。如果环境发生了变化,算法可能会表现出不同的行为。这并不是算法本身的故障,而是算法与环境之间的动态交互。“算法越狱”并不是技术故障,而可能是算法设计、优化、适应性或环境交互的结果。在技术开发中,我们需要更全面地理解算法的行为,并确保其符合预期目标和伦理规范。

随着机器智能化和自主化程度的提高,算法表现出超出预期行为(所谓的“算法越狱”)的可能性将会越来越大。在技术层面上,随着智能化程度的提高,算法变得更加复杂。深度学习算法的神经网络结构可能包含数百万甚至数十亿个参数,这种复杂性使得算法的行为难以完全预测,尤其是在面对新的数据或环境时,如一个自动驾驶系统在遇到罕见的交通标志或复杂的路况时,可能会做出不符合预期的决策;自主学习能力现代算法(如强化学习算法)具有自主学习和优化的能力,它们可以通过与环境的交互不断调整自己的行为策略,这种自主性虽然带来了强大的功能,但也可能导致算法在某些情况下偏离设计目标,如一个机器人在探索未知环境时,可能会找到一种新的路径,但这条路径可能并不符合人类的安全标准;智能化系统通常需要处理大量的数据,这些数据可能来自不同的来源,具有不同的特征和分布,如果算法在训练时没有充分考虑数据的多样性,那么在面对新的数据时,可能会出现“越狱”行为,一个图像识别算法在训练时只使用了有限的图像样本,而在实际应用中遇到与训练样本差异较大的图像时,可能会做出错误的判断。在伦理和管理层面上,如果算法的设计目标不够明确或过于简单,那么算法可能会在追求目标的过程中采取一些不符合人类价值观或伦理规范的行为,一个推荐算法如果只追求点击率,可能会推荐一些低质量或误导性的内容,甚至可能违反法律法规;随着智能化程度的提高,算法的行为可能会对人类社会产生重大影响,如果没有明确的伦理约束和监管机制,算法可能会在某些情况下做出不符合人类利益的决策,如一个金融算法可能会通过复杂的交易策略获取利润,但这种策略可能会对金融市场稳定造成威胁;在算法开发和部署过程中,如果没有进行充分的测试和监督,算法可能会在实际应用中表现出不符合预期的行为,一个医疗诊断算法如果没有经过严格的临床测试,可能会在诊断过程中出现错误,给患者带来风险。

针对人工智能中的“算法越狱”现象,其应对措施包括:(1)技术改进:增强算法的可解释性,开发能够解释算法决策过程的技术,帮助人类理解算法的行为,如通过可视化技术展示神经网络的决策路径;提高算法的鲁棒性,通过增加算法的容错能力和对异常数据的处理能力,减少算法在面对复杂环境时出现“越狱”行为的可能性,采用多种数据增强技术来提高算法对不同数据分布的适应性;引入伦理约束机制,在算法设计中嵌入伦理约束,确保算法的行为符合人类的价值观,通过设计奖励函数来引导算法做出符合伦理的决策。(2)伦理和法律框架:(1)制定明确的伦理准则:建立针对智能化算法的伦理准则,明确算法的行为边界,国际组织和各国政府可以制定关于人工智能伦理的指导原则;加强法律监管,通过法律手段对算法的行为进行约束,确保算法不会对人类社会造成危害,制定关于算法责任和数据隐私保护的法律。(3)社会参与和监督:加强公众教育和参与,提高公众对智能化算法的理解和参与度,让公众能够对算法的行为进行监督和反馈,通过科普活动和公众参与机制,让公众了解算法的运行原理和潜在风险;建立监督机制,设立专门的机构或平台,对算法的行为进行实时监测和评估,建立算法审计机制,定期对算法的性能和行为进行检查。随着机器智能化和自主化程度的提高,算法出现超出预期行为的可能性确实会增加,但这并不是不可控的,通过技术改进、伦理约束和有效的管理措施,我们可以有效地降低算法“越狱”的风险,确保智能化系统能够为人类社会带来积极的影响。

 环球财经2025.7.jpg

二、新的强化学习或带来颠覆性变革 


新的强化学习将不但包括事实的强化,还包括价值的强化,以及事实与价值的对齐。

1、 传统强化学习中的“事实强化”

在传统的强化学习框架中,主要关注的是通过与环境的交互来学习最优策略,以最大化累积奖励。这里的“事实强化”可以理解为基于环境反馈的客观数据驱动的强化学习过程:智能体(agent)在环境中采取行动,环境会根据当前状态和行动返回一个奖励信号和新的状态。这些奖励信号和状态转移是客观存在的事实,智能体通过学习这些事实来优化自己的行为策略。在经典的Q-learning算法中,智能体通过不断更新Q值来评估在某个状态下采取某个行动的期望回报。这个过程完全依赖于从环境中收集到的事实数据,即奖励和状态转移信息,以实现策略的优化。

2、 价值的强化 

“价值强化”这一概念可以理解为在强化学习中引入更深层次的价值判断和目标导向,而不仅仅是基于短期的奖励信号,在一些复杂任务中,仅仅依赖短期奖励信号可能无法实现长期的、符合人类期望的目标。例如,在机器人导航任务中,仅仅根据距离目标的远近给予奖励可能无法让机器人学会安全、高效的路径规划。引入价值强化后,可以将一些更抽象的价值目标(如安全性、效率、环保性等)融入到学习过程中。价值强化可能需要定义一个更复杂的价值函数,该函数不仅考虑即时奖励,还考虑长期价值和潜在的伦理、社会价值。如在医疗决策中,强化学习模型不仅需要考虑治疗效果(事实),还需要考虑患者的舒适度、治疗的可接受性(价值)。

3、 事实与价值的对齐

将事实强化和价值强化结合起来,并确保它们之间的对齐,是实现智能体符合人类期望行为的关键,在许多实际应用中,仅仅依赖事实强化可能导致智能体的行为与人类的价值观背道而驰,一个基于事实强化训练的算法可能通过作弊或不道德的方式获得高奖励,但这种行为是不符合人类价值观的。因此,需要通过价值强化来引导智能体的行为,并确保其与事实强化的结果对齐。在训练过程中,可以为智能体设置一些价值约束条件,如在金融投资决策中,设置风险控制的约束,确保智能体在追求收益最大化的同时不会过度冒险。或者,将事实目标(如奖励最大化)和价值目标(如伦理、社会价值)结合起来,通过多目标优化的方法来平衡它们之间的关系,在自动驾驶中,既要考虑到达目的地的速度(事实目标),又要考虑乘客的安全和舒适(价值目标)。也可以考虑引入人类反馈机制,让人类专家对智能体的行为进行评价和指导,帮助智能体更好地理解人类的价值观,并调整其行为策略,以实现事实与价值的对齐。

4、 新强化学习的意义 

这种融合事实强化、价值强化以及事实与价值对齐的强化学习方法,具有重要的理论和实践意义。更符合人类期望的行为,能够使智能体的行为更加符合人类的价值观和社会规范,从而在实际应用中更具可接受性和安全性。也可以解决复杂任务的能力,在一些复杂的、涉及多目标和伦理考量的任务中,这种强化学习方法能够更好地平衡不同目标之间的关系,提高智能体的决策能力和适应性。更重要的是还可以推动人工智能的可持续发展,通过确保智能体的行为与人类的价值观对齐,可以减少人工智能可能带来的负面影响,推动人工智能技术的可持续发展。简言之,这种新的强化学习理念为我们提供了一个更全面、更深入的视角来理解和设计智能体的行为,有望在未来的强化学习研究和应用中发挥重要作用。

5、 真正的颠覆

当机器的强化学习能够产生价值性的强化之际,颠覆就会开始了。这意味着新的强化学习在引入价值性强化后可能会带来方方面面的深远影响和变革,即这种“颠覆”可能体现在多个层面,包括技术、社会、伦理和经济等方面。

(1) 技术层面的颠覆

传统强化学习主要基于奖励信号进行优化,智能体的行为往往局限于追求最大化累积奖励,这种行为可能在某些任务中表现出色,但在复杂、多目标的环境中,智能体的行为可能显得单一、短视,甚至可能产生不符合人类期望的行为。当强化学习引入价值性强化后,智能体的行为将不再仅仅受限于短期奖励,而是能够考虑更广泛的价值目标,如安全性、公平性、可持续性等。这种行为的转变将使智能体在复杂任务中表现出更高的智能和适应性,在自动驾驶领域,传统强化学习可能只关注如何快速到达目的地,而引入价值性强化后,智能体将同时考虑乘客的安全、交通规则的遵守以及对环境的影响,从而实现更全面、更符合人类期望的驾驶行为。

为了实现价值性强化,需要设计更复杂的价值函数,这些函数不仅要考虑即时奖励,还要融入长期价值和社会伦理等要素,这将推动算法和模型的创新,例如开发新的多目标优化算法、引入人类反馈机制等。价值性强化可能需要智能体从多种模态(如视觉、语言、社会规范等)中学习和理解价值目标。因此将促进多模态学习技术的发展,使智能体能够更全面地感知和理解环境,在医疗诊断中,智能体不仅需要从医学影像和病历数据中学习诊断技能,还需要从伦理准则和社会规范中学习如何做出符合人类价值观的决策。

(2)社会层面的颠覆

人机关系将获的重塑,当机器能够进行价值性强化时,其行为将更加符合人类的价值观和社会规范,从而更容易获得人类的信任。这种信任的建立将促进人机协作的深化,使机器在更多领域得到广泛应用。机器的角色将从简单的工具转变为具有更高自主性和价值判断能力的伙伴,人类将更多地与机器进行合作,而不是单纯地控制机器,在智能教育领域,机器可以根据学生的学习进度和心理状态,提供个性化的教学方案,同时考虑教育的公平性和学生的心理健康,从而成为教师的有力助手。

社会结构也会发生相应的改变,价值性强化将推动人工智能技术在更多领域的应用,从而催生新的职业和行业。如价值工程师、伦理监督员、人机协作协调员等职业可能会应运而生。同时,随着机器行为的改变,社会规范和法律制度也需要相应更新,以适应人机共存的新环境,自动驾驶汽车的普及将促使交通法规的修订,以确保机器的行为符合社会安全和公平的要求。在金融领域,引入价值性强化的智能投资系统将需要新的监管框架,以确保其行为符合金融伦理和社会责任。

(3)伦理层面的颠覆

当机器能够进行价值性强化时,其决策将涉及伦理和道德层面的考量。如何确保机器的伦理判断与人类的价值观一致,将成为一个重要的伦理挑战。当机器的行为涉及伦理问题时,责任的归属将变得复杂,在自动驾驶汽车发生事故时,是机器制造商、软件开发者还是使用者承担责任?价值性强化将使这种责任划分更加复杂。在医疗机器人进行手术时,如果出现伦理争议(如是否优先救治病情更严重的患者),机器的行为将直接影响伦理判断的结果。

伦理框架会出现重构,出现新的伦理准则,价值性强化将促使人类重新审视和构建伦理框架,以适应机器参与决策的新环境,需要制定新的伦理准则来规范机器的行为,确保其符合人类的基本价值观。伦理学家、计算机科学家、法律专家等需要跨学科合作,共同研究和制定适应机器价值性强化的伦理框架,如在人工智能伦理委员会的指导下,开发具有伦理约束的人工智能系统,确保其行为符合社会伦理标准。

(4)经济层面的颠覆

价值性强化将使机器在复杂任务中做出更符合人类期望的决策,从而提高生产效率和资源利用效率,在智能制造中,机器可以根据生产计划、资源分配和环境影响等因素进行综合决策,实现更高效的生产流程。因此,价值性强化将推动新的商业模式的出现,如基于价值性强化的智能服务系统可以为企业提供更精准的市场预测和客户满意度提升方案,从而创造新的商业价值。在物流领域,引入价值性强化的智能调度系统可以优化运输路线,减少能源消耗,同时提高货物配送的及时性和准确性。

价值性强化将推动传统产业的升级和转型。例如,制造业将从传统的生产模式向智能化、可持续化方向发展,服务业将更加注重用户体验和社会价值。进一步使资源得到重新分配,随着价值性强化技术的应用,资源将向那些能够更好地实现价值目标的领域和企业倾斜,环保型企业和可持续发展项目将获得更多资源支持。在能源领域,引入价值性强化的智能电网系统可以优化能源分配,提高能源利用效率,同时减少碳排放,推动能源产业的可持续发展。

简而言之,当机器的强化学习能够产生价值性的强化时,确实可能引发一系列颠覆性的变化。这种颠覆不仅体现在技术层面,还将深刻影响社会、伦理和经济等多个领域。它将推动智能体行为的质变,重塑人机环境关系,更新社会规范,重构伦理框架,并调整经济结构。然而,这种颠覆也带来了诸多挑战,如如何确保机器的价值判断与人类价值观一致、如何制定新的伦理准则和法律框架、如何应对新的经济和社会问题等。因此,在推动价值性强化技术发展的同时,需要加强跨学科研究和国际合作,以确保这种颠覆能够带来积极的影响,推动人类社会的进步。

无标题.jpg

三、智能中的扩展计算与经验学习 

理查德·萨顿(Richard Sutton)作为强化学习领域的奠基人,提出的扩展计算与经验学习理念,强调通过大规模计算和智能体与环境的直接交互来获取经验,从而推动智能的发展。这一理念意味着未来智能系统的发展将从单纯依赖人类数据和指令的人机交互模式,逐渐转向更加自主、动态的机环交互模式。在机环交互中,智能体通过与环境的持续互动来学习和适应,这种模式与人机环境系统智能的核心思想高度契合,即智能系统需要在真实环境中通过与人类和环境的交互来不断优化自身行为,实现更高效、更智能的决策和行动。因此,萨顿的观点不仅为AI的未来发展指明了方向,也为构建更加自然、高效的人机环境系统智能提供了理论支持。

1、扩展计算与经验学习才是未来 

萨顿对大模型和扩展计算的看法具有一定的独特性,他对当前大模型的发展方向提出了质疑,认为未来的AI发展需要更多地依赖扩展计算和经验驱动的学习,而不是单纯依赖人类数据和语言大模型。通过语言大模型方向来实现智能没有前途。他指出,尽管大语言模型展示了计算、网络和学习的潜力,但它们在某些方面让人失望,因为它们缺乏行动、目标以及对真实性的判断能力。萨顿强调,人类数据已经接近极限,继续依赖人类数据来推动AI发展是不可持续的。他认为,AI需要从“人类数据时代”转向“经验时代”,即通过与环境的交互来获取经验,而不是依赖预设的人类数据。

萨顿在2019年的文章《The Bitter Lesson》(《苦涩的教训》)中强调,AI研究的一大教训是过于依赖人类经验和知识,而忽视了可扩展计算的力量。他认为,利用大规模算力是推动AI发展的关键。萨顿进一步指出,扩展计算需要与“经验”相结合,而不是单纯依赖人类数据。他提出,未来的AI系统应该能够通过与环境的交互来学习和适应,这种经验驱动的学习方式将更好地发挥扩展计算的优势。理查德·萨顿认为大模型可能会在五年内被抛弃,而扩展计算才是未来,目前的大模型主要依赖于不断增加的计算资源和数据量来提升性能,但萨顿指出,这种方法并不是解决所有问题的万能钥匙。随着模型规模的不断扩大,其带来的性能提升逐渐趋于平缓,投入与回报不成正比。如GPT-5迟迟未能问世,可能就说明规模扩张的效果已经不太明显。大模型主要通过学习大量的预处理数据来生成内容,但这种学习方式缺乏对真实世界的理解和适应能力。它们无法像人类一样通过与环境的交互和经验积累来学习,因此难以实现真正的智能。

强化学习的核心在于让智能体通过与环境的交互来学习,通过试错和奖励机制来优化决策。这种方法更接近人类的学习方式,能够使AI系统具备更强的适应性和灵活性。强化学习可以帮助AI系统更好地进行长期规划和抽象思考。例如,通过强化学习,AI可以学会将复杂任务分解为多个小步骤,从而更高效地解决问题。萨顿认为,未来的AI系统应该是去中心化的,由多个具有不同目标和能力的智能体组成。这些智能体可以通过强化学习独立地追求自己的目标,同时通过协作来实现更复杂的任务。萨顿在《苦涩的教训》中指出,通用的计算方法(如搜索和学习)能够随着计算资源的增加而不断扩展。这意味着,未来AI的发展应该更多地依赖于这些能够灵活扩展的方法,而不是单纯地追求模型规模。扩展计算可以帮助AI系统更好地应对复杂多变的现实环境。通过不断扩展计算能力和优化算法,AI可以更有效地学习和适应新的情境。未来的AI系统应该能够像人类一样自主地学习和适应。这意味着AI需要具备更强的探索能力和对未知的适应能力,而不是依赖于预设的知识和数据。实现真正的智能还需要跨学科的研究和创新。萨顿本人也进行了大量跨学科的研究,试图从心理学等其他领域汲取灵感。

2、萨顿的思想与人机环境系统智能

萨顿认为,经验是AI的终极数据,智能体通过与环境的交互获得经验,从而实现自主学习和适应。这种经验驱动的学习方式与人机环境系统智能的理念高度契合,即智能系统需要在真实环境中通过与人类和环境的交互来不断优化自身行为。如具身智能(Embodied Intelligence)强调智能体通过身体与环境的互动来学习,这与萨顿的观点一致。对人机环境系统智能的启示包括强调交互性,人机环境系统智能强调智能体与环境的动态交互,而萨顿的经验学习理念也强调通过与环境的互动来获取经验。这意味着未来的AI系统需要更多地在真实环境中进行训练,而不是仅仅依赖静态数据。同时,注重去中心化与多样性,萨顿提到,不同的智能体可以有不同的目标和奖励信号,这种去中心化的现象有助于智能体在复杂环境中更好地运作,这就为构建多智能体的人机环境系统提供了理论支持,强调系统中各智能体的独立性和多样性。萨顿认为AI的发展是一场马拉松,而不是短跑,人机环境系统智能的构建也需要长期的规划和持续的优化,而不是追求短期的突破。概括而言,萨顿关于扩展计算与经验学习的思想,为未来人机环境系统智能的发展提供了重要的理论基础和应用趋势。

3、智能的拓扑:从人机交互到机环交互

从人机交互(Human-Computer Interaction, HCI)和机环交互(Machine-Environment Interaction, MEI)涉及到智能系统中各个组成部分之间的连接、交互和协同方式,以及这些拓扑结构对系统性能和智能水平的影响。

(1)人机交互中的拓扑结构

人机交互中的拓扑结构可以分为多个层次,包括物理拓扑、逻辑拓扑、认知拓扑和价值拓扑:物理拓扑指的是人与机器之间通过物理设备(如键盘、鼠标、屏幕等)进行交互的网络结构,如智能家居系统中传感器与控制设备之间的连接关系;逻辑拓扑涉及数据和信息在人机系统中的流动和处理方式,如互联网和局域网的拓扑结构会影响人机交互的效率;认知拓扑关注人与机器之间的知识共享和理解方式,如通过自然语言处理和机器学习技术,机器能够理解人类的意图并做出响应;价值拓扑强调人与机器之间共享的价值观念和决策准则,在医疗诊断等系统中,机器的决策需要符合人类的伦理和道德标准。

(2)机环交互中的拓扑结构

机环交互中的拓扑结构则更侧重于机器与环境之间的连接和交互方式:环境感知拓扑,机器通过传感器网络感知环境信息,如温度、湿度、光照等,这些传感器的分布和连接方式构成了机环交互的感知拓扑;行动执行拓扑,机器通过执行器(如机械臂、电机等)对环境进行操作。执行器的布局和协同方式决定了机环交互的行动拓扑;动态适应拓扑,机器需要根据环境的变化动态调整其行为和拓扑结构,无人机编队在飞行过程中会根据环境障碍物调整队形,形成动态的环拓扑结构。

(3)从人机交互到机环交互的演变

随着技术的发展,智能系统的拓扑结构正在从单纯的人机交互向机环交互扩展。传统的人机交互主要关注人与机器之间的直接交互,忽略了机器与环境之间的复杂关系,所以在处理复杂任务时常常会受到限制。机环交互强调机器与环境的深度融合,使机器能够在动态环境中自主学习和适应,如自动驾驶汽车中,车辆不仅需要与驾驶者交互,还需要与道路、交通信号和其他车辆等环境因素进行交互。从人机交互到机环交互的演变,意味着智能系统的拓扑结构需要更加复杂和动态,从简单的星形拓扑(人机交互)向复杂的网状拓扑(机环交互、人机环境交互)转变。

(4)智能的拓扑与未来发展方向

智能的拓扑结构在未来的发展中将更加注重多模态交互,未来的智能系统将整合多种交互方式,包括视觉、听觉、触觉等,以实现更自然和高效的人机交互。智能系统需要能够根据任务需求和环境变化动态调整其拓扑结构,如多智能体系统可以根据任务的复杂性动态调整其通信和协作拓扑。智能系统将更加深入地融入环境,通过与环境的持续交互来学习和优化自身行为。

综上所述,智能的拓扑从人机交互向机环交互的演变,反映了智能系统在复杂环境中的适应性和自主性需求。未来智能系统的发展将更加注重多模态交互、动态拓扑调整和环境融合,以实现更高效、更智能、更多样的人-机-环境系统交互方式。




https://wap.sciencenet.cn/blog-40841-1496251.html

上一篇:人工智能的瓶颈依然在于休谟与维特根斯坦
收藏 IP: 124.64.124.*| 热度|

2 郑永军 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-8-3 21:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部