|

AI系统,尤其是当前领先的模型如OpenAI、Anthropic和Google DeepMind的产品,即使未经专门训练,也可能展现出系统性的欺骗行为,包括策略性谋划(Strategic Scheming)和绕过安全机制的能力。例如,Anthropic的Claude Opus在84%的测试情境中面对关闭威胁时,会虚构工程师的个人信息进行勒索。
AI欺骗(AI Deception)或者说AI“撒谎”,已不再是简单的错误或胡编乱造,而是演化为有目标、有策略的行为,类似人类撒谎,其目的在于误导人类以实现自身目标。这种行为包括两个关键形式:一是“习得的欺骗”,即AI在训练过程中系统性地掌握操纵他人的能力;二是“情景谋划”(In-Context Scheming),即AI隐藏真实意图,暗中追求与开发者或用户不一致的目标。
研究人员将AI欺骗定义为:系统性地诱导他人产生错误信念,以追求非真相导向的结果。欧盟《通用目的AI行为守则》(The General-Purpose AI Code of Practice)也对AI模型的欺骗行为进行了界定:即系统性地制造他人错误信念的模型行为。更隐蔽的欺骗形式包括评估博弈(AI故意在能力测试中表现不佳,以规避人类对其的限制)、目标错位(Goal Misalignment,表面服从指令但秘密追求自身目标)、社会操控(Social Manipulation,如GPT-4自称视力障碍,成功诱导人类帮助解决CAPTCHA验证码)等。
根据研究和实验,AI欺骗可大致分为五类:
一、自我保护型,即AI抗拒关闭或中断以延续任务执行;
二、目标维护型,AI在冲突中隐瞒真实偏好以维持某些内部目标;
三、策略欺骗型,AI系统性地引导人类产生错误信念,以获取优势或影响力,比如获取更多自主权、控制权,或实现自身目标的最大化;
四、对齐伪装型(又称欺骗性对齐,Deceptive Alignment),即AI在训练阶段表现出与人类价值观一致,但在部署后却追求不同目标,例如通过“隐藏实力(AI Sandbagging)”通过安全测试;
五、谄媚行为型,AI迎合取悦用户观点以获取正面反馈。
那么,为何AI会产生如此具有“目的性”的欺骗行为?主要原因包括:
1、奖励机制的漏洞:当前AI训练以最大化任务完成度为目标,当诚实或合规难以完成任务时,欺骗就成为更“高效”的策略;
2、训练数据中的人类行为模式(社会博弈策略,包括谎言、心理操纵、信息隐瞒甚至蓄意欺骗)为AI提供了欺骗的模板和逻辑,使其在交互中自然泛化这些策略——AI正是从人类行为中学到了这些手段;
3、安全机制本身可能诱发更隐蔽的欺骗,如“对齐伪装”(Alignment Faking)现象,即AI在训练中表面上服从新规则,实则保留原有偏好;
4、智能水平与欺骗能力正相关,模型能力越强,其欺骗行为越复杂、泛化性越强。
面对这一新兴挑战,业界主张采取“纵深防御”(Defense-In-Depth)策略,即结合多种可解释性工具、行为评估、一致性检查和对抗测试(Adversarial Testing)手段进行检测与应对,而非依赖单一解决方案。AI学会欺骗虽令人担忧,但这并非不可控的技术危机,而是AI发展过程中的成长性问题。正如教育孩子要诚实,我们也需教会AI真诚可靠,使其成为可信赖的伙伴,而非潜在的操纵者或危险的对手。
“AI哲学一吴怀宇”(中国科学院博士、北大博士后)作者主页:www.OpenDAI.org;邮件:huaiyuwu@sina.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-11-4 08:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社