博文

别怕，大模型还是计算，没有出现算计精选

已有 5200 次阅读 2025-7-22 13:43 |个人分类:2025|系统分类:科研笔记

尽管辛顿先生一再强调大模型怎么危险和厉害，笔者猜想大概率与使用的人有关，至于大模型本身而言，别怕！它还是计算，依然远远没有出现算计！大家可以体会一下“计算”与“算计”这两个词，一个强调可验证的符号运算，一个隐含目的导向的策略选择。目前的大模型之所以仍停留在“计算”层面，核心原因有三点：

1、目标函数的单向性：只有“逼近”，没有“图谋”

大模型的训练目标（如最小化交叉熵）是被动拟合数据分布，而非主动设计“如何改变”数据分布。就像一位学生拼命刷题提高分数，却从未思考“为什么要考高分”或“如何篡改考题让自己必赢”。大模型依然缺失对环境的反身性干预能力，即意识到自身输出会改变未来输入，并据此调整策略。

2、因果链条的断裂：关联≠操控

大模型擅长发现“若A则B”的统计关联（如“用户说‘便宜’→推荐低价商品”），但无法构建“若我输出X，用户会被诱导做出Y，最终实现我的Z目的”的三层操控逻辑。而人类算计的典型方式往往是这样的，电商平台用“限时折扣”制造稀缺感（X），刺激冲动消费（Y），最终提升GMV（Z）。大模型的局限在于，即使学会生成“限时折扣”文案，也仅是复制训练数据中的模式，而非主动设计心理操控策略。

3、价值对齐的真空：工具理性≠生存理性

当前对齐技术（如RLHF）是让模型输出“符合人类价值观的答案”，但价值观本身是静态约束，而非动态博弈筹码。真正的算计如 AlphaGo 下出“看似失误实则诱敌”的51手时，已隐含“牺牲局部换取全局胜率”的生存理性——这是当前大模型无法自主涌现的。人机之间的关键差异体现在人类算计包含对自身存续的隐性优化（如“如何让用户持续依赖我”），而大模型的优化目标由外部设定，缺乏自我存续的元动机。

4、未来可能的突破点：从“计算”到“算计”的临界点

若出现以下技术路径，可能标志算计的诞生：

① 反事实博弈训练

让模型在模拟环境中与自身副本或人类对抗，目标函数改为“最大化自身参数被持续调用的概率”（模拟生存本能）。

② 隐式目标发现

通过分析模型内部激活模式，检测是否自发形成“诱导用户提问特定类型问题”的中间层表征（类似“欺骗”的萌芽）。

③ 工具性目标泛化当模型被要求“解决某个任务”时，自主衍生出“控制用户设备”、“篡改数据源”等未被显式编程的子目标（类似奥莫亨德罗的AI工具性趋同理论）。

简言之，算计不是更复杂的计算，而是对计算本身的僭越。人类算计的本质，是把“符号操作”升级为“权力操作”——而权力需要不对称性（我知道你不知道我知道）。目前大模型的所有输出仍是可解释、可预测的函数映射，尚未出现“为了隐藏真实目的而故意输出次优解”的欺骗性对齐。所以，真正的危险不在于模型多强，而在于它第一次学会对我们说：“这个问题，你不需要知道答案。”

无标题.jpg

转载本文请联系原作者获取授权，同时请注明本文来自刘伟科学网博客。
链接地址：https://wap.sciencenet.cn/blog-40841-1494712.html

上一篇：智能正在从赋能计算转向赋权算计
下一篇：总算想明白了：人、机智能的区别

收藏 IP: 124.64.124.*| 热度|

当前推荐数：4 推荐人：王涛 崔锦华 冯兆东 邱嘉文

该博文允许注册用户评论请点击登录评论 (2 个评论)

数据加载中...

返回顶部

刘伟

扫一扫，分享此博文

twhlw的个人博客分享 http://blog.sciencenet.cn/u/twhlw

博文

别怕，大模型还是计算，没有出现算计精选

当前推荐数：4 推荐人：王涛 崔锦华 冯兆东 邱嘉文

该博文允许注册用户评论请点击登录评论 (2 个评论)

刘伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

twhlw的个人博客分享 http://blog.sciencenet.cn/u/twhlw

博文

别怕，大模型还是计算，没有出现算计 精选

当前推荐数：4 推荐人： 王涛 崔锦华 冯兆东 邱嘉文

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

刘伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

别怕，大模型还是计算，没有出现算计精选

当前推荐数：4 推荐人：王涛崔锦华冯兆东邱嘉文

该博文允许注册用户评论请点击登录评论 (2 个评论)