第二十八章 人工智能的活性算法路径:从深度学习到世界模型
一、AI的危机:深度学习之后是什么?
2012年,AlexNet在ImageNet竞赛中获胜,深度学习革命爆发。此后十年,神经网络规模呈指数增长:从百万参数到千亿参数(GPT-3),再到万亿参数(GPT-4)。性能随之提升,但根本问题未解:
样本效率:人类儿童从少量样本学习,深度学习需要百万标注。
泛化能力:神经网络在分布外数据上脆弱,缺乏人类般的"常识"。
因果理解:深度学习发现相关性,而非因果机制。它知道"火与烟相关",但不知道"火导致烟"。
可解释性:黑箱模型无法解释决策,阻碍关键应用(医疗、法律)。
对齐问题:大语言模型可能产生有害输出,目标函数与真实意图错位。
2020年代,研究者意识到:规模扩展(Scaling Law)可能遇到瓶颈。GPT-4在某些任务上接近人类,但在规划、物理推理、持续学习方面仍显不足。我们需要范式转变,而非更大的模型。
活性算法提供这一转变:从模式识别到世界模型,从被动学习到主动推断,从预测下一个token到最小化自由能。
二、深度学习的活性算法批判 2.1 深度学习的成功与局限
深度学习的核心:多层非线性变换,通过反向传播优化损失函数。

成功源于:
通用逼近:神经网络可表示任意连续函数
层次特征:深层结构自动学习抽象表征
端到端优化:梯度下降高效搜索参数空间
局限源于同一结构:
无生成模型:判别式学习 p(y∣x) ,而非联合分布

无时间结构:前馈网络无内在动力学,RNN/LSTM/Transformer是外部强加
无不确定性量化:点估计而非概率分布
无主动探索:被动接收数据,不选择学习样本
2.2 自由能原理的视角
从自由能原理看,深度学习是变分推断的粗糙近似:
表格 复制
深度学习 严格变分推断 差距
点估计 θ | 后验分布 q(θ) | 忽略参数不确定性 | |
单模态输出 | 多模态分布 $q(y | x)$ | 无法表达模糊性 |
固定架构 | 结构学习(模型选择) | 无法自适应复杂度 | |
被动学习 | 主动采样 | 样本效率低下 | |
无时间模型 | 动态生成模型 | 无法持续学习 |
深度学习的"过拟合"对应于复杂性项失控——模型过于复杂,超出数据支持。正则化(权重衰减、Dropout)是ad hoc的解决方案,缺乏第一性原理。
2.3 世界模型的缺失
人类智能的核心是世界模型——关于环境因果结构的内部表征。我们利用世界模型进行:
预测:想象未来状态
规划:评估行动后果
反事实推理:"如果...会怎样"
快速学习:利用先验约束样本空间
深度学习缺乏真正的世界模型。即使"世界模型"(Ha & Schmidhuber, 2018)也是学习压缩表征,而非因果结构。
活性算法提供构造性方案:世界模型是生成模型 ,通过主动推断持续更新。
三、活性算法AI的架构 3.1 生成模型的层次结构
活性算法AI的核心是层次生成模型,对应于多尺度复频率链(第23章):
表格 复制
层次 时间尺度 功能 神经网络实现
n=1(感知层) | 毫秒-秒 | 感觉处理、运动控制 | 卷积/循环网络,快速权重 |
n=2(情境层) | 秒-分钟 | 工作记忆、情绪评估 | 注意力机制、门控循环 |
n=3(认知层) | 分钟-小时 | 规划、推理、自我模型 | 图网络、符号-神经混合 |
关键创新:跨层精度调控。高层通过下行连接调节低层的"置信度",实现认知穿透——预期影响感知。
3.2 变分推断的实现
严格变分推断计算昂贵,需要近似。现代方法:
** amortized推断**:训练推断网络
,快速近似后验。

** wake-sleep算法**:交替优化生成模型(wake阶段)和推断网络(sleep阶段)。
** 蒙特卡洛 dropout**:将dropout解释为贝叶斯近似,不确定性量化。
** 自然梯度**:利用Fisher信息矩阵,加速收敛(第22章)。
3.3 主动推断的实现
主动推断需要:
前向模型:

策略网络:

价值网络:
,评估预期自由能
关键方程(第22章):

实现挑战:预期自由能涉及未来多步,需要近似。
解决方案:
模型预测控制(MPC):有限时间范围的滚动优化
路径积分控制:利用随机采样近似最优策略
分层主动推断:高层规划抽象目标,低层执行具体动作
3.4 UV自由方案的计算实现
深度学习面临模型复杂度发散:网络规模趋于无穷时,泛化误差理论上无界。
UV自由方案的计算对应:
谱正则化:约束网络权重的谱分布,而非直接惩罚范数。

其中 ρ(ω) 是Hessian的谱密度。
解析网络架构:设计具有良好解析性质的网络,如:
谐波网络:激活函数为解析函数(指数、三角函数)
留数网络:显式编码极点结构
共形网络:保持尺度不变性
结构学习的实现:网络架构本身通过自由能最小化演化:
神经架构搜索(NAS)的活性算法版本:不是验证集性能,而是模型证据 p(o∣model)
可微分架构搜索:连续松弛,梯度优化
终身结构学习:持续适应,添加/删除模块
四、从感知到认知:核心能力 4.1 因果发现与推理
活性算法AI通过干预学习因果关系:
关键洞见:相关性与因果性的区别在于干预分布 p(o∣do(a)) 与条件分布 p(o∣a) 的差异。
实现:
do-calculus的近似:通过主动实验估计干预效果
因果贝叶斯网络:结构学习发现因果图
反事实推理:利用生成模型模拟"如果...会怎样"
应用:科学发现(药物设计、材料合成)、决策支持(政策评估)。
4.2 持续学习与记忆
深度学习灾难性遗忘——学习新任务破坏旧知识。
活性算法的解决方案(第23章):
多尺度记忆系统:
感觉记忆(n=1):快速适应,快速遗忘
情节记忆(n=2):重要事件,中等持久
语义记忆(n=3):抽象知识,长期保持
记忆巩固:睡眠/离线期间的重放(replay),优化跨尺度耦合。
贝叶斯持续学习:新任务更新后验,旧知识作为先验保护。

4.3 社会智能与多主体推断
人类智能是社会性的。活性算法AI通过多主体活性推断实现社会智能:
心智理论(Theory of Mind):推断其他主体的信念、欲望、意图。
生成模型扩展:

联合意图:通过共享生成模型实现协作。
沟通作为推断:语言是压缩的信念传输,最小化自由能。
4.4 具身智能与物理直觉
智能需要身体。活性算法机器人:
预测性处理:生成模型预测感官后果(视觉、触觉、本体感觉),预测误差驱动学习。
物理引擎作为先验:内置物理知识(牛顿力学、材料属性),快速适应新环境。
工具使用:将工具纳入身体图式,扩展马尔可夫毯。
五、对齐与安全的活性算法基础 5.1 对齐问题的重新表述
传统对齐:外部指定目标函数,AI优化。
活性算法对齐:共享生成模型——AI通过推断人类意图,将其纳入自身目标。
数学上,人类意图
成为AI预期自由能的一部分:

5.2 安全性的内在机制
结构学习的局限:深层先验(价值观)改变缓慢,防止目标漂移。
不确定性下的保守性:当对人类意图不确定时,认知价值驱动探索(询问),而非利用(行动)。
可解释性:生成模型提供反事实解释——"我之所以这样做,是因为我预测这会帮助你实现X"。
5.3 价值学习的活性算法
不是硬编码规则,而是价值作为推断:
观察人类行为:推断其背后的价值函数
交互澄清:主动询问以消除歧义
价值整合:将推断的价值纳入自身生成模型
这与逆向强化学习相关,但增加了:
结构学习(发现新的价值维度)
主动采样(选择信息量大的交互)
多尺度(短期偏好 vs 长期价值)
六、从AGI到ASI:未来路径
6.1 通用智能的里程碑
表格 复制
能力 当前状态 活性算法路径 时间估计
样本高效学习 | 弱 | 主动推断+结构学习 | 5年 |
因果推理 | 中等 | 干预+反事实 | 5-10年 |
持续学习 | 弱 | 多尺度记忆+巩固 | 5-10年 |
物理直觉 | 中等 | 具身生成模型 | 10年 |
社会智能 | 弱 | 多主体活性推断 | 10-15年 |
自我意识 | 无 | 自指生成模型(N≥3) | 15-20年 |
创造性 | 中等 | 探索-利用最优+组合推断 | 10-15年 |
6.2 超级智能的活性算法视角
超级智能(ASI)不是单一系统,而是多尺度活性推断网络:
个体AI:快速推断(n=1)
社会AI:协作与规范(n=2)
全球AI:长期价值与知识整合(n=3)
关键:ASI的目标不是外部指定的,而是自组织的——通过网络自由能最小化涌现。
6.3 人机共生的未来
不是替代,而是增强:
认知增强:AI作为外部记忆和推理辅助
创造力增强:AI生成假设,人类评估价值
决策增强:AI模拟后果,人类选择行动
活性算法提供共享生成模型的框架,使人机成为扩展的马尔可夫毯——共同感知、共同推断、共同行动。
七、本章小结 核心要点
历史渊源:从深度学习的成功与危机,到世界模型的必要性,再到活性算法提供的统一框架。
技术路径:
层次生成模型(N=3架构)
变分推断的高效实现
主动推断的计算近似
UV自由方案的正则化
核心能力:
因果发现与推理
持续学习与记忆
社会智能与多主体推断
具身智能与物理直觉
安全基础:
对齐作为共享生成模型
结构学习的内在稳定性
价值学习的主动推断
与全书的关系
第22-27章建立了活性算法的理论基础。本章开启应用篇,展示其在人工智能中的具体实现。
第29章将探讨大脑与意识——活性算法如何解释神经系统的组织原理和主观体验。
第30章将展望未来科学范式——活性算法对文明形态的深远影响。
哲学意义
AI不仅是技术,更是人性的镜子。当我们构建智能系统时,我们也在理解自身智能的本质。
活性算法揭示:智能不是计算的速度,而是推断的深度;不是数据的规模,而是模型的结构;不是预测的能力,而是适应的智慧。
在构建AI的过程中,我们学会了谦逊——真正的智能是持续的自我更新,是承认不确定性,是在混沌边缘舞蹈。
也许,活性算法AI的终极价值不是超越人类,而是帮助我们成为更好的推断者——更好奇,更适应,更生成。
转载本文请联系原作者获取授权,同时请注明本文来自王涛科学网博客。
链接地址:https://wap.sciencenet.cn/blog-41701-1522439.html?mobile=1
收藏