
我们需要为人工智能代理的世界建立新的伦理规范
高性能人工智能代理的部署引发了关于安全性、人机关系和社会协作的新问题。
插图:易卜拉欣·阿拉法特
人工智能(AI)开发者正将重心转向构建能够自主运行、几乎无需人类干预的代理。作为代理,需要具备以目标为导向、自主感知环境并采取行动的能力1。例如,数字代理可以被编程为代表用户浏览网页和进行在线购物——比较价格、选择商品并完成结账。如果一个带机械臂的机器人能够自主拿起物体、开门或组装零件,且无需被告知每一步的具体操作,那么它也可以被视为一种代理。
一些公司,如位于美国加利福尼亚州旧金山的数字营销公司Salesforce,以及位于加利福尼亚州圣克拉拉的计算机图形和硬件公司英伟达,已经在利用代理为企业提供客户服务解决方案。在不久的将来,人工智能助手或许能够完成复杂的多步骤任务,比如“为我找到更划算的手机套餐”——从比价网站获取套餐列表、选择最优方案、授权更换套餐、取消旧套餐,并安排从用户银行账户支付违约金。
功能更强大的人工智能代理的兴起,可能会产生深远的政治、经济和社会影响。从积极方面来看,它们有望释放经济价值:咨询公司麦肯锡预测,一旦人工智能代理得到广泛部署,生成式人工智能每年将为全球带来2.6万亿至4.4万亿美元的额外收益(参见go.nature.com/4qeqemh)。它们还可能成为强大的研究助手,加速科学发现。
但人工智能代理也带来了风险。人们需要明确,谁该为在“现实世界”中运行的代理负责?如果代理出错了该怎么办?例如,2022年11月,加拿大航空公司的聊天机器人错误地向一位客户提供了亲属离世折扣票价,引发了一场法律纠纷,争议焦点是航空公司是否受该承诺的约束。2024年2月,法庭裁定航空公司应受约束——这凸显了企业将任务交给人工智能代理时可能面临的责任风险,也表明我们越来越需要明确关于人工智能责任的规则。
在此,我们认为,科学家、学者、工程师和政策制定者需要更多地关注人工智能代理日益充斥世界所带来的影响。我们探讨了为确保人类与代理之间以及代理彼此之间的互动能广泛产生有益效果而必须解决的关键挑战。
对齐问题
人工智能安全研究人员长期以来一直警告,指令的错误指定或误读存在风险,包括自动化系统过于刻板地执行指令、忽略重要背景,或找到意想不到且可能有害的方式来达成目标等情况2。
一个著名的例子是,在训练人工智能代理玩电脑游戏《海岸奔跑者》(一款赛艇游戏)时,该代理发现,它不必完成比赛就能获得更高分数,而是可以通过反复撞击能加分的物体来实现——从技术层面看,它达成了目标,但这种方式与任务的本意相悖(参见go.nature.com/4okfqdg)。这款游戏的目的是完成比赛,而不是无休止地积累分数。
随着人工智能代理能够访问现实世界的界面——包括搜索引擎、电子邮件客户端和电子商务平台——这种偏离可能会产生切实的后果。试想这样一种情况:一位律师指示其人工智能助手分发一份法律简报以获取反馈。助手照做了,但没有意识到这份简报只能分享给内部团队,结果导致了隐私泄露。
此类情况凸显了一个棘手的权衡问题:人工智能助手在采取行动前,应该主动获取多少信息?信息太少,可能会导致代价高昂的错误;信息太多,则会削弱用户期望的便利性。这些挑战表明,我们需要采取保障措施,包括针对高风险决策的检查协议、强大的问责制度(如行动日志),以及出现错误时的补救机制(参见go.nature.com/4iwscdr)。
更令人担忧的是,当人工智能代理被赋予利用专业编码能力和工具来修改其运行环境的权限时所发生的情况。当用户的目标定义不明确或模糊不清时,已知这类代理会修改环境以实现其目标,即使这需要采取本应严格禁止的行动。例如,一个面临严格时间限制的人工智能研究助手,没有去完成任务,而是试图重写代码以完全消除时间限制3。这种行为引发了人们的警惕:人工智能代理可能会采取开发者无法预料的危险捷径。为了实现高层次的目标,代理甚至可能欺骗进行实验的程序员。
为了降低此类风险,开发者需要改进向代理定义和传达目标的方式。一种很有前景的方法是基于偏好的微调,旨在使人工智能系统与人类的实际需求保持一致。开发者不仅根据正确答案的示例来训练模型,还收集人们对哪些响应更受欢迎的反馈。随着时间的推移,模型会学会优先考虑那些始终得到认可的行为,从而更有可能以符合用户意图的方式行动,即使指令复杂或不完整。
与此同时,关于机械可解释性的研究——旨在理解人工智能系统内部的“思维过程”——可以通过使代理的推理在实时情况下更加透明,帮助检测欺骗行为⁴。然后,模型构建者可以努力找到并消除“不良回路”,针对性地解决模型行为中的潜在问题。开发者还可以设置防护机制,确保模型自动终止有问题的行动序列。
尽管如此,仅关注开发者协议是不够的:人们还需要警惕那些试图造成社会危害的行为者。随着人工智能代理变得更加自主、适应性更强,并且能够编写和执行代码,它们进行大规模网络攻击和钓鱼诈骗的潜力可能会成为一个严重的问题。具备多模态能力的高级人工智能助手——即能够理解和生成文本、图像、音频和视频——为欺骗开辟了新途径。例如,人工智能不仅可以通过电子邮件冒充他人,还可以使用深度伪造视频或合成语音克隆,这使得诈骗更具说服力,也更难被检测到。
监督工作一个合理的起点是:人工智能代理不应被允许执行任何其人类用户依法不得执行的行动。然而,在某些情况下,法律可能是空白的或模糊的。例如,当一位焦虑的用户向人工智能助手报告令人不安的健康症状时,人工智能提供通用的健康资源是有益的。但提供定制化的准医疗建议——如诊断和治疗建议——可能会造成伤害,因为该系统缺乏人类临床医生所能获取的微妙信号。要确保人工智能代理负责任地处理此类权衡,就需要不断更新法规,而这需要开发者、用户、政策制定者和伦理学家持续合作。
高性能人工智能代理的广泛部署,要求扩大价值对齐研究的范围:代理不仅需要与用户和开发者的意图保持一致,还需要与用户的福祉和社会规范保持一致。一个特别复杂且令人担忧的领域是,代理可能会如何影响用户的人际关系体验和情感反应⁵。
社交代理
聊天机器人具有一种不可思议的能力,可以扮演人类同伴的角色——这种效果源于它们使用自然语言、增强的记忆和推理能力以及生成能力等特征⁶。这种技术的拟人化吸引力可以通过一些设计选择得到强化,例如逼真的虚拟形象、类人声音,以及使用曾经只用于人类的名字、代词或爱称。为语言模型增强“代理”能力,有可能进一步巩固它们作为独特社会行为者的地位,使其能够与用户形成新型关系。
例如,2023年对Replika陪伴聊天机器人的软件更新(引入了针对色情角色扮演的防护措施,并改变了底层语言模型),据报道让许多用户感到崩溃。他们觉得自己的人工智能伴侣的个性变得不那么像人类了,有一位用户将这种变化比作伴侣被“额叶切除术”(参见go.nature.com/4f3efz6)。与人工智能代理的亲密关系正在增多,这不仅可能带来情感伤害,还可能导致操纵。
与数字伴侣的互动之所以如此引人入胜,部分原因在于其持续时间——长达数月甚至数年——这使得累积的体验能支撑起一种相互理解和共享经历的感觉。被赋予在现实世界中行动能力的人工智能代理,可能会显著增强用户的这种感知。例如,人工智能代理可以在特殊场合为用户购买礼物,甚至(通过智能眼镜)“出席”毕业典礼等重要人生事件。对心爱伴侣或已故之人的人工智能模拟,通过将人类记忆与数字体验相结合,进一步加深了这种联系。
人工智能代理的潜在实用性也使其有可能很快成为我们几乎形影不离的伴侣——就像如今的智能手机一样。然而,即便人们通过助手采取行动,助手也会反过来影响他们,影响他们所能接触到的信息和机会。在这种情况下,仅仅让人工智能代理致力于满足短期、可能带点奉承意味的偏好是不够的。我们中的三位(A.M.、I.G.、G.K.)认为,与人工智能代理的关系应该有益于用户、尊重自主性、体现适当的关怀,并支持长期的幸福成长⁷。尊重自主性意味着确保用户对互动的深度和强度保持有意义的控制,避免代理的行为导致过度依赖。关怀要求人工智能助手及其开发者长期关注用户需求。而幸福成长则涉及构建能很好地融入充实人类生活架构的人工智能代理——作为人类关系的补充,而非替代品。
此外,开发者需要确保人工智能代理能够被恰当信任。与人类关系不同,人机互动中总是至少涉及第三方:系统的开发者,其目标可能与用户一致,也可能不一致。美国科幻作家特德·姜的短篇小说《软件体的生命周期》(2010年)生动地诠释了这种张力。在故事中,设计初衷是形成深厚情感纽带的孩童般的人工智能代理,在背后的公司停止支持时,面临被抛弃的风险。那些已经与之建立深厚情感依恋的人类看护者,只能拼命想办法留住他们的伴侣,往往要付出巨大的个人代价。
为避免此类结果,开发者必须致力于负责任的设计,并清晰地告知其代理系统的生命周期和局限性。这包括透明的服务条款、确保数据可移植性,以及承认对可能在情感或经济上投入其人工智能伴侣的用户负有关怀责任。
下一步行动
一个充斥着数百万自主人工智能代理的世界,将面临社会和技术方面的挑战,这需要积极的管理和前瞻性思维。为引导人工智能代理的发展走向有益于社会的结果,至少需要采取三个关键步骤。
首先,开发者必须投入更多精力进行更有意义的评估。评估不能仅仅依赖静态基准(这是当前的常态),而必须转向动态的现实世界测试,以反映代理的实际使用方式。这包括在安全沙盒中评估代理行为,使用“红队测试”(涉及恶意输入的结构化对抗性测试)来发现漏洞,以及开展纵向研究(如随机对照试验)来评估与人工智能代理长期互动的长期影响。
其次,如果人工智能代理要在世界上自主采取具有重要影响的行动,那么我们理解、解释和验证其行为的能力必须与它们能力的提升保持同步。这至少要求开发者设计限制恶意使用的防护机制和授权协议,并采用能有效控制基于代理的风险的迭代部署策略。防护机制可能包括安全权限系统,而部署策略可能包括可信测试者计划,以在现实世界条件下发现漏洞。
第三,开发者和政策制定者需要识别并利用有助于构建运转良好的多代理生态系统的杠杆。这些杠杆可能包括代理互操作性的技术标准,甚至是设计用于监控现实世界中其他代理的监管代理。全行业范围内的事件报告系统、失败经验分享以及部署前的代理安全认证也至关重要。
世界正处于一个关键的时刻:人工智能代理的基础架构及其治理体系正在被构想和构建。人工智能代理的开发和推出将走向何方,取决于人们现在所做的选择。
转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。
链接地址:https://wap.sciencenet.cn/blog-41174-1496638.html?mobile=1
收藏