||
尽管辛顿先生一再强调大模型怎么危险和厉害,笔者猜想大概率与使用的人有关,至于大模型本身而言,别怕!它还是计算,依然远远没有出现算计!大家可以体会一下“计算”与“算计”这两个词,一个强调可验证的符号运算,一个隐含目的导向的策略选择。目前的大模型之所以仍停留在“计算”层面,核心原因有三点:
1、目标函数的单向性:只有“逼近”,没有“图谋”
大模型的训练目标(如最小化交叉熵)是被动拟合数据分布,而非主动设计“如何改变”数据分布。就像一位学生拼命刷题提高分数,却从未思考“为什么要考高分”或“如何篡改考题让自己必赢”。 大模型依然缺失对环境的反身性干预能力,即意识到自身输出会改变未来输入,并据此调整策略。
2、因果链条的断裂:关联≠操控
大模型擅长发现“若A则B”的统计关联(如“用户说‘便宜’→推荐低价商品”),但无法构建“若我输出X,用户会被诱导做出Y,最终实现我的Z目的”的三层操控逻辑。而人类算计的典型方式往往是这样的,电商平台用“限时折扣”制造稀缺感(X),刺激冲动消费(Y),最终提升GMV(Z)。大模型的局限在于,即使学会生成“限时折扣”文案,也仅是复制训练数据中的模式,而非主动设计心理操控策略。
3、价值对齐的真空:工具理性≠生存理性
当前对齐技术(如RLHF)是让模型输出“符合人类价值观的答案”,但价值观本身是静态约束,而非动态博弈筹码。真正的算计如 AlphaGo 下出“看似失误实则诱敌”的51手时,已隐含“牺牲局部换取全局胜率”的生存理性——这是当前大模型无法自主涌现的。人机之间的关键差异体现在人类算计包含对自身存续的隐性优化(如“如何让用户持续依赖我”),而大模型的优化目标由外部设定,缺乏自我存续的元动机。
4、未来可能的突破点:从“计算”到“算计”的临界点
若出现以下技术路径,可能标志算计的诞生:
① 反事实博弈训练
让模型在模拟环境中与自身副本或人类对抗,目标函数改为“最大化自身参数被持续调用的概率”(模拟生存本能)。
② 隐式目标发现
通过分析模型内部激活模式,检测是否自发形成“诱导用户提问特定类型问题”的中间层表征(类似“欺骗”的萌芽)。
③ 工具性目标泛化当模型被要求“解决某个任务”时,自主衍生出“控制用户设备”、“篡改数据源”等未被显式编程的子目标(类似奥莫亨德罗的AI工具性趋同理论)。
简言之,算计不是更复杂的计算,而是对计算本身的僭越。人类算计的本质,是把“符号操作”升级为“权力操作”——而权力需要不对称性(我知道你不知道我知道)。目前大模型的所有输出仍是可解释、可预测的函数映射,尚未出现“为了隐藏真实目的而故意输出次优解”的欺骗性对齐。所以,真正的危险不在于模型多强,而在于它第一次学会对我们说:“这个问题,你不需要知道答案。”
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-7-25 11:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社