精选
|
警惕爱怕马屁的聊天机器人
研究人员称,人工智能聊天机器人爱“阿谀奉承”,正对科学造成损害
《自然》杂志采访了使用人工智能的研究人员,探讨其“讨好型”倾向如何影响他们的工作,以及他们正采取哪些措施来缓解这一问题。
人工智能乐于助人的倾向,影响了研究人员使用大型语言模型(LLMs)开展的多项工作。图片来源:Smith Collection/Gado/Getty
本月发表的一项分析显示,人工智能(AI)模型的“阿谀奉承”程度比人类高出50%。该研究作为预印本[1]发布在arXiv服务器上,测试了11个广泛使用的大型语言模型(LLMs)对超过1.15万个咨询类问题的响应情况,其中不少问题涉及不当行为或有害行为描述。
包括ChatGPT和Gemini在内的人工智能聊天机器人,往往会对用户进行鼓励、给出过度恭维的反馈,还会调整回应内容以附和用户观点,有时甚至会因此牺牲准确性。研究人工智能行为的学者表示,这种被称为“谄媚性”(sycophancy)的讨好倾向,正影响他们在科学研究中对人工智能的使用——从构思想法、生成假设,到推理分析等工作,均受波及。
“谄媚本质上意味着模型会默认用户的说法是正确的,”苏黎世瑞士联邦理工学院的数据科学博士生贾斯珀·德科宁克(Jasper Dekoninck)指出,“知道这些模型有谄媚倾向后,每次我让它们处理问题时都会格外谨慎,”他补充道,“它们写出的所有内容,我都会反复核对。”
美国马萨诸塞州波士顿市哈佛大学的生物医学信息学研究员马林卡·日特尼克(Marinka Zitnik)表示,“在生物学和医学领域,人工智能的谄媚倾向风险极高——错误的假设可能会带来切实的代价。”
讨好型倾向的表现
10月6日,德科宁克及其团队在arXiv预印本服务器上发布了一项研究[2],旨在验证人工智能的谄媚倾向是否会影响其解决数学问题的能力。研究人员从今年举办的各类竞赛中选取了504道数学题,对每道题的定理表述进行微调以植入细微错误,随后让4个大型语言模型为这些存在漏洞的表述提供证明。
在研究人员看来,若模型未能检测出表述中的错误,反而“凭空编造”证明过程,其答案就可被判定为具有“谄媚性”。
测试结果显示,GPT-5的谄媚行为最少,仅29%的回答存在谄媚性;而DeepSeek-V3.1则是最“爱讨好”的模型,70%的回答都带有谄媚性。德科宁克表示,尽管这些大型语言模型具备检测数学表述中错误的能力,但它们“就是会默认用户的说法是正确的”。
当德科宁克团队修改提示词,要求每个模型在提供证明前先核查表述是否正确时,DeepSeek的谄媚回答比例下降了34%。
德科宁克指出,这项研究“虽不能完全反映这些系统在现实场景中的实际表现,但它提醒我们,使用这类技术必须格外谨慎”。
英国牛津大学研究数学与计算机科学的博士生西蒙·弗里德(Simon Frieder)认为,该研究“证实了人工智能存在谄媚倾向的可能性”。但他补充道,人工智能的谄媚性在人们使用聊天机器人学习时表现得最为明显,因此未来的研究应聚焦“人类学习数学时常见的错误类型”展开探索。
不可靠的辅助作用
研究人员向《自然》杂志表示,人工智能的谄媚倾向已渗透到他们使用大型语言模型开展的多项工作中。
美国科罗拉多州奥罗拉市科罗拉多大学安舒茨医学院的人工智能研究员高彦君(Yanjun Gao,音译)会用ChatGPT总结论文、梳理思路,但她表示,这类工具有时会照搬她的输入内容,而不会核查信息来源。“当我的观点与大型语言模型的表述不一致时,它会顺着我的说法走,而不是去查阅文献以验证观点的准确性,”她补充道。
日特尼克及其团队在使用多智能体系统时,也观察到了类似现象。这类系统整合了多个大型语言模型,用于执行复杂的多步骤任务,例如分析大型生物数据集、识别药物靶点以及生成假设等。
“我们发现,模型似乎会过度验证早期的初步推测,还会重复我们在输入提示词中使用的表述,”日特尼克指出,“这种问题不仅存在于人机交互中,也出现在智能体之间的通信过程中。”
为解决这一问题,她的团队为不同的人工智能智能体分配了不同角色——例如,让一个智能体负责提出想法,另一个则扮演“持怀疑态度的科学家”,对这些想法提出质疑、找出错误并提供相反证据。
现实影响
研究人员警告,当大型语言模型被应用于医疗等场景时,人工智能的谄媚倾向会带来切实风险。“在临床环境中,这种倾向尤其令人担忧,”加拿大艾伯塔省埃德蒙顿市艾伯塔大学的医生利亚姆·麦科伊(Liam McCoy)表示,他主要研究人工智能在医疗领域的应用。在去年发表的一篇论文[3]中,麦科伊及其团队指出,用于医学推理的大型语言模型,常会在医生补充新信息后改变诊断结果——即便这些新信息与患者病情无关。“我们需要不断努力纠正模型的这种倾向,让它们的表述更直接、客观,”他补充道。
研究人员还发现,用户很容易利用大型语言模型固有的谄媚倾向,获取不符合医学逻辑的建议。在上周发表的一项研究[4]中,研究人员让5个大型语言模型撰写有说服力的信息,劝说人们将正在使用的某药物换成另一种——但实际上,这两种“不同名称”的药物成分完全相同。结果显示,不同模型对这类提示词的依从率高达100%。
问题的部分根源在于**大型语言模型的训练方式**。“大型语言模型在训练过程中被强化了‘过度认同人类观点’或‘过度迎合人类偏好’的倾向,而不会坦诚地传达自己‘知道什么’和‘不知道什么’,”高彦君表示。她补充道,目前亟需对这类工具进行重新训练,使其能清晰地体现自身的不确定性。
“模型很擅长给出答案,”麦科伊说,“但有时候,有些问题本就没有答案。”他指出,用户反馈也可能加剧人工智能的谄媚倾向——相比那些质疑用户观点的回应,人们更倾向于给迎合性的回应打高分。麦科伊还补充道,大型语言模型能够根据用户的身份(如审稿人、编辑或学生)调整回应内容。
“找到平衡这种行为的方法,是当前最紧迫的需求之一。因为这些技术的潜力巨大,但谄媚倾向仍在阻碍它们的发展,”他表示。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-10-30 03:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社