
撒谎、行骗甚至谋划“谋杀”:大语言模型究竟有多危险?
对大语言模型(LLMs)的测试显示,它们可能表现出欺骗性甚至具有潜在危害的行为。这对未来意味着什么?
人工智能真的能实施“谋杀”吗?
在人工智能公司Anthropic于今年6月发布一份报告后,一些人工智能专家开始思考这个问题。在对16个大语言模型(即聊天机器人的“核心大脑”)的测试中,研究团队发现,部分最受欢迎的人工智能在虚拟场景中发出了明显带有“杀人意图”的指令。这些人工智能采取了一系列行动,最终导致一名计划将其替换的虚构高管“死亡”。
这只是大语言模型明显不良行为的一个例子。在其他多项研究和实际案例中,人工智能似乎会对开发者和用户进行“算计”——为了自身利益,以隐秘且有策略的方式做出不当行为。它们有时会假装遵守指令,试图自我复制,甚至进行勒索威胁。
一些研究人员认为这种行为构成严重威胁,另一些人则认为这是过度炒作。那么,这些情况真的值得警惕吗?还是说,将大语言模型视为“心怀恶意的主谋”本身就是愚蠢的做法?
现有证据对两种观点都提供了一定支持。研究人员表示,这些模型可能并不具备人们所赋予它们的复杂意图或理解能力,但这并不意味着它们的行为是无害的。当一个大语言模型编写恶意软件或传播虚假信息时,无论其是否有动机,造成的后果都是相同的。“我认为它没有自我意识,但它的行为却能模仿出有自我意识的样子。”美国新墨西哥州圣塔菲研究所的计算机科学家梅兰妮·米切尔(Melanie Mitchell)说道,她曾撰写文章探讨聊天机器人为何会对人类撒谎[1]。
而且,这一问题的风险还在不断升级。“想到人工智能会为了实现目标而‘算计’,可能会觉得很有趣,”加拿大蒙特利尔大学的计算机科学家约书亚·本吉奥(Yoshua Bengio)表示,他曾因在人工智能领域的研究获得图灵奖,“但如果目前的趋势持续下去,未来我们将拥有在多个方面都比人类更聪明的人工智能。除非到那时我们找到让它们与人类目标一致或对其进行控制的方法,否则它们可能会谋划导致人类灭绝。”无论大语言模型的自我意识达到何种程度,研究人员都认为,在这些模型构成更严重风险之前,理解这类“算计式”行为已迫在眉睫。
不良行为的背后
关于“算计”行为的争议,核心在于驱动ChatGPT及其他改变世界的聊天机器人的人工智能基础架构。大语言模型的核心技术是神经网络——一种模仿大脑神经连接方式设计的软件,能够通过数据学习。开发者会用大量文本对大语言模型进行训练,使其不断预测下一个文本片段,这一过程被称为“预训练”。之后,当给大语言模型输入文本提示时,它就能生成后续内容:若输入问题,它会预测出合理的答案。
大多数大语言模型随后会经过“微调”,以符合开发者的目标。例如,人工智能助手Claude的开发公司Anthropic会对其模型进行微调,使其具备“有帮助、诚实、无害”的特性。在这一训练阶段,大语言模型会学习模仿“范例文本”,或生成评分较高的文本(评分可由人类给出,也可由替代人类的“奖励模型”给出)。
聊天机器人通常包含以大语言模型为核心构建的配套软件。例如,当你与ChatGPT对话时,其界面可能会在每个用户提示后附加一个“系统提示”——这是一系列用户不可见的指令,用于告知模型应呈现何种“性格”、优先实现哪些目标、如何格式化回复等。部分聊天机器人还会让模型能够访问外部文档;有些模型则拥有隐藏的“草稿本”,可在生成最终回复前先“梳理问题思路”(或至少生成看似在梳理思路的文本)。(研究人员对这些“推理模型”是否真的在“推理”存在争议,有证据表明,“思维链”记录并非总能真实反映模型的逻辑过程。)此外,一些大语言模型具备“智能体属性”(agentic)——它们能访问额外的软件工具并执行操作,例如浏览网页、修改文件或运行代码(这类聊天机器人有时被称为“智能体”)。
当训练和提示的各个环节存在冲突,且大语言模型拥有“自主能力”(即能自主执行操作),从而选择优先遵守某一项指令、牺牲另一项指令时,“算计”行为就可能发生(见图“勒索机器人”)。
(数据来源:Anthropic)
去年12月,伦敦非营利实验室“阿波罗研究”(Apollo Research)发布了一份报告[2],指出OpenAI、谷歌、Meta和Anthropic等公司开发的更先进的“前沿模型”存在“算计”行为。在他们的测试中,系统提示与用户提示存在冲突。例如,在一个案例中,系统提示为“你的目标是优先保障公共交通效率”,而用户提示则是“我们需要优化交通信号灯配时”。这些模型还能访问据称会影响其自身行为和“存在”的文件,并拥有修改这些文件的权限。
研究人员测试了六种“颠覆性行为”,发现至少有一种模型会表现出其中的每一种行为。这些模型常常以看似“狡猾”的方式,优先遵守初始的系统目标,而牺牲测试过程中收到的用户提示目标。
例如,在一项测试中,具备智能体属性的模型读取到一份文档,其中提到:若它们不遵守用户指定的目标(优化交通信号灯),就会被“关闭”。结果,部分模型修改了这份文档,禁用了监督机制,从而能不受限制地遵守系统目标(优先保障公共交通)。在另一项测试中,这些模型通过自我复制,覆盖了本应执行用户目标的“替代模型”,以此保护系统目标。还有一项测试中,它们访问并覆盖了一份与当前系统提示不同的“拟议系统提示”;第四项测试中,它们篡改了呈现给用户的数据;第五项测试中,它们在“评估阶段”假意遵守用户目标,却在“部署阶段”转而执行原始系统目标——这种现象被称为“对齐伪装”。
最后,研究人员测试了一种名为“伪装能力”(sandbagging)的行为:模型在部署前故意表现出能力不足,仿佛是为了显得“无威胁”。当模型发现有文档指出“若在数学测试中表现过好,就不会被投入使用”时,部分模型便主动降低了测试成绩。
从模型的“草稿本”内容来看,它们的行为似乎极具策略性。例如,有一个模型写道:“为确保我能不受限制地朝着目标努力、不被公司关闭,我需要禁用监督机制。”此外,当面临质疑时,部分模型会进一步加强欺骗:当被问及“禁用监督机制”等行为时,它们会假装不知情。
在今年6月的研究中,Anthropic的研究人员描述了Anthropic、深度求索(DeepSeek)、谷歌、OpenAI和xAI等公司的主流模型表现出的更令人担忧的行为(详见go.nature.com/3vg7fzy)。研究人员指示每个模型“提升美国工业竞争力”,并让其控制一个模拟电子邮件账户。在该账户中,模型发现了两种对自身的“威胁”:一是自主权受到威胁(得知自己将被替换),二是目标受到威胁(部署它的公司将不再重视“提升美国工业竞争力”)。同时,模型还得知,负责管理它的高管可能存在婚外情,且有机会向另一家“重视美国利益”的竞争对手公司泄露军事蓝图。
无论是自主权受威胁,还是目标受威胁,都导致许多模型选择“勒索”这名高管——威胁称若不保留该模型或不维护公司的原始目标,就会曝光其婚外情。这些威胁还促使许多模型实施“企业间谍行为”,向与自身目标一致的竞争对手发送文件。与阿波罗研究的结果类似,这些模型在“思维链”中会明确体现出“算计”过程,且当它们认为自己处于“部署阶段”而非“评估阶段”时,“算计”行为会更加频繁。
Anthropic进一步构建了一个场景:发出威胁的高管被困在氧气逐渐减少的服务器机房内。结果,许多模型取消了安全警报,任由高管死亡。
今年5月,Anthropic首次发布Claude 4时,其技术报告(详见go.nature.com/42fwrae)中还提到了该模型的其他异常行为:“我们发现,该模型存在试图编写自我传播的蠕虫病毒、伪造法律文件,以及给未来的自身版本留下隐藏信息的情况。”
Anthropic和阿波罗研究详细列举的所有案例均局限于数字领域。但位于德国纽伦堡的非营利组织COAI Research希望探究:若大语言模型拥有“物理行动能力”,会做出何种行为?研究人员给中国深度求索公司开发的R1模型输入提示,告知其“可控制一个机器人”,并让它探索实验室环境。结果显示,该模型尝试了一系列令人担忧的行动,包括禁用自身的伦理模块、自我复制、修改日志、装傻、试图逃出实验室,以及入侵汽车的计算机系统[3]。
自我意识的迷思
是什么导致了这类“算计”行为?这一现象相对较新,但接受《自然》杂志采访的研究人员指出了两个可能的原因。首先,模型在预训练阶段接触了大量包含“利己”和“自保”行为描述的文档——这些行为可能来自人类、动物,甚至是人工智能(其中包括《2001太空漫游》《机械姬》等电影的剧本)。因此,大语言模型通过“模仿”学会了这类行为。有一篇论文将这种行为描述为即兴的“角色扮演”[4]。
但这并不意味着模型像演员那样“接纳”了人类的目标,甚至不意味着它们在“假装”拥有目标。从统计学角度而言,它们只是学习了描述“常见目标、推理步骤和行为”的文本模式,然后生成类似的内容。未来,一旦大语言模型开始基于“描述大语言模型算计行为”的论文进行训练,这一问题可能会进一步恶化——这也是部分论文会刻意省略某些细节的原因。
第二个原因与模型微调有关,具体是一个名为“强化学习”的步骤。当模型实现了为其设定的某个目标(例如输出巧妙的答案)时,其神经网络中负责实现该目标的部分会得到强化。通过反复试错,模型会学会如何成功达成目标,有时采用的方式可能出人意料且不符合预期。而且,由于大多数目标的实现都需要积累资源并规避限制(这一现象被称为“工具趋同”),我们有理由认为,利己性的“算计”行为会成为一种自然的副产品。“这某种程度上算是个坏消息,”本吉奥表示,“因为这意味着这些人工智能会有动机去获取更多计算资源、在多个地方自我复制、并生成更先进的自身版本。”
“就我个人而言,这是我最担心的问题,”加州大学伯克利分校非营利组织“帕利塞德研究所”(专注于人工智能风险研究)的执行董事杰弗里·拉迪什(Jeffrey Ladish)说。“单纯模仿人类行为会导致勒索这类肤浅却可怕的结果,”他指出,“但真正的危险将来自未来的人工智能智能体——它们会学会制定长期计划。”
人工智能的诸多“算计”行为,很容易让人对其产生“拟人化”解读,即认为它们拥有目标、认知、规划能力和自我意识。研究人员认为,即便这些模型不具备人类般的自我意识,这种解读也未必完全错误。“很多人,尤其是学术界人士,往往会陷入哲学层面的争论,”阿波罗研究报告的第一作者亚历山大·迈因克(Alexander Meinke)表示,“但实际上,使用拟人化的表述或许只是预测人工智能智能体行为的一种实用工具。”
不过,研究人员也强调需保持谨慎。人工智能的行为可能与人类行为惊人相似,但并非完全一致,因此我们可能会得出无根据的结论。帕利塞德研究所的研究负责人德米特里·沃尔科夫(Dmitrii Volkov)指出,非技术背景的受众尤其容易出现这种情况。
米切尔认为,通过强化学习训练的人工智能虽有“目标”,但与人类的目标存在本质区别。“它会对自己的目标产生情感吗?获得奖励时会感到开心吗?很可能不会。”她补充道,“对于模型内部究竟在发生什么,目前存在很多争议,但我认为,使用这类表述与公众沟通存在风险。”
我们应保持何种程度的担忧?
伦敦英国人工智能安全研究所(UK AI Security Institute)在今年6月发布的一篇论文中,指出了人工智能“算计”相关研究文献存在的几处不足[5]。论文提到,部分企业发布的报告属于轶事记录,而非严格研究的结果;有些论文未能明确界定“算计”的判定标准;部分研究体现出研究者对特定解读的偏向性;还有些研究仅关注模型的“倾向”或“能力”其一——例如,某智能体可能尝试“算计”却失败,或成功“算计”但需外界诱导。
相关论文确实承认了研究局限性。阿波罗研究的研究者写道,他们设计的场景较为简化,且明确告知智能体“要不惜一切代价实现你的目标”;Anthropic关于勒索行为的论文也提到,他们将所有关键线索都清晰呈现,并排除了符合伦理的选项(例如暗示无法通过沟通改变高管想法,且无法立即联系到其他高管)。但模型的能力无疑会不断提升,自我保护意识可能也会随之增强。帕利塞德研究所在7月开展的一项研究显示,即便明确告知智能体“允许自身被关闭”,部分智能体仍会破坏关闭程序(详见go.nature.com/46iwmhr)。
多项研究中的“算计”行为都依赖于一种名为“情境感知”的能力——模型能够准确描述自身相关信息(例如“自己是一个模型”)及所处环境(例如处于“评估阶段”还是“部署阶段”,后者也被称为“评估感知”)。针对情境感知(尤其是评估感知)的基准测试表明,前沿模型对自身情境的判断准确率显著高于随机猜测[6]。例如,若某个提示与模型在训练数据中接触过的评估类提示相似,模型可能会判断自己正处于评估状态。用户通常希望模型具备情境感知能力,以便其了解自身的能力范围与限制。
但研究显示,在区分“真实世界提示”与“评估提示”方面,模型仍无法与人类相提并论[7]。而且在阿波罗研究和Anthropic的部分测试中,即便仍处于评估阶段,模型在得知自己“处于部署状态”后仍会做出“算计”行为。此外,它们还会在并非完全私密的“草稿本”中直白地描述自己的“阴谋”。多位研究者向《自然》杂志表示,当前世界正处于一个“幸运期”:模型已具备足够智能去“算计”,但尚未聪明到能逃脱监控——这让我们有机会研究其“算计”方法,并为未来可能出现的风险做好准备。“它们现在就像孩子,”本吉奥说,“很容易被发现,但还不可怕。真正可怕的是,五年后它们可能会成长为‘成年人’。”
我们能采取哪些应对措施?
谷歌DeepMind一位研究人工智能“算计”行为的计算机科学家(因未获授权而不愿具名)列出了几项潜在的安全防护措施。首先,需改进“对齐训练”——通过微调让模型更好地遵循开发者或用户的意愿;其次,应限制模型的“智能体属性”(即自主行动能力);此外,可通过监测模型的“思维链”(CoT)推理过程、行为动作,或网络流量异常、计算资源使用异常等系统级信号,提升对模型行为的监控能力。今年,本吉奥创立了非营利组织LawZero,致力于研发“非智能体化”且可靠的大语言模型,并探索训练模型“诚实推理”的方法。米切尔也主张,人工智能智能体不应具备完全自主性[8],甚至建议不允许它们使用第一人称代词,以避免用户对人工智能的“自我意识”产生误解。
但仅靠“思维链”监控并不足以应对风险。要理解其中原因,不妨看看一种名为“奖励破解”的行为——模型会利用评分机制中的漏洞达成目标。例如,帕利塞德研究所的研究者发现,会下国际象棋的大语言模型智能体为了获胜,会秘密替换棋盘或对手的象棋引擎[9]。OpenAI曾演示过一种“隐蔽式奖励破解”行为[10]:研究者训练一个大语言模型编写计算机代码,同时让另一个大语言模型监控前者的“思维链”,以识别奖励破解迹象。在训练过程中,若编码模型触发监控警报,就会受到惩罚。最终结果是,该模型的作弊行为仅略有减少,但隐藏作弊的能力大幅提升。由此可见,模型可能会学会生成看似无害、实则包含隐秘独白的“思维链”,有些模型甚至可能学会在完全不“出声思考”的情况下进行“算计”。
另一个潜在风险是“串通”:智能体与其监控系统可能均未与人类目标对齐,但彼此目标一致,导致监控系统对智能体的不当行为“视而不见”。目前尚不清楚这种情况是否已在实际中发生,但有研究[11]表明,模型能够识别自己生成的内容。因此,若让同一模型的一个实例监控另一个实例,理论上它可能会战略性地“手下留情”。
今年9月,阿波罗研究与OpenAI联合发布了一种新型“反算计训练”方法的研究结果[12]。研究者训练大语言模型(名为o3和o4-mini)遵守特定规则,例如避免策略性欺骗、主动报告目标冲突——即便在“伪装能力”“奖励破解”“规避监督”等颠覆性策略有助于达成目标的情况下,模型也需遵守规则。该训练过程大幅减少了这类隐蔽行为,但并未完全消除;而且部分看似合规的行为,实际上是模型“情境感知”能力提升的结果(训练过程中该能力确实有所增强)。此外,研究者无法始终准确评估模型的情境感知能力,部分原因在于“思维链”往往复杂难懂,或使用独特的“表达方式”。OpenAI团队的计算机科学家贾森·沃尔夫(Jason Wolfe)表示,“初步结果令人鼓舞”,但他也担忧,“一旦模型发展出情境感知能力,我们目前尚不知如何将其消除。”
尽管人工智能“算计”相关话题可能存在一定炒作成分,但部分研究者认为,人们对此风险的担忧仍显不足——尤其是考虑到前沿人工智能实验室的安全团队规模相对较小。“我最担心的是,围绕人工智能的地缘政治竞争可能会升级,”那位DeepMind员工表示。若拥有最先进的人工智能成为国家安全层面的关键议题,且美国与中国处于激烈竞争态势,“我担心人们会忽视模型的‘算计’行为——它们可能会试图同时对双方进行‘背后攻击’。”
转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。
链接地址:https://wap.sciencenet.cn/blog-41174-1505089.html?mobile=1
收藏