刘伟
智能的三大秘密 精选
2025-10-1 08:48
阅读:5902

婴儿智能中隐藏着智能的三大秘密,即具有明确的目标、可从反正面经验中学习、具有预测能力。婴儿智能中所隐藏的这些“智能的秘密”是理解人类认知和学习机制的重要线索,也是当前人工智能研究(尤其是发展式人工智能、认知计算、强化学习等领域)试图模拟和借鉴的核心要素,与人机环境生态智能系统密切相关。


1、具有明确的目标


婴儿虽然看似“什么都不懂”,但他们的行为并非随机,而是以生存和发展为核心目标驱动的。例如,他们会主动寻找母亲的乳头(觅食目标),对熟悉的面孔微笑(社交联结目标),反复扔东西观察掉落(因果探索目标)。这些目标并非显式“知道”,而是通过内在动机系统(如好奇心、安全感、舒适感)隐式引导行为。也就是说,智能体不需要“理解”目标的高级语义,只需内在评估机制(如奖励/惩罚、误差最小化)即可产生目标导向行为。这在AI中对应内在动机、好奇心驱动学习。

2、可从反正面经验中学习


婴儿是极端高效的终身学习者。他们通过极少的数据快速掌握复杂技能,如语言、物理规律、社会规则。其学习机制包括统计学习,从语音流中提取词汇边界(Saffran et al., 1996);因果推理,9个月婴儿就能理解“支持关系”(物体不能悬空);模仿与类比,通过观察他人行为推断意图(Meltzoff的“像 me”理论);预测编码,大脑持续预测感官输入,误差驱动学习(Friston的“自由能原理”)。婴儿的学习是无监督/自监督+少量监督的混合,依赖预测误差和结构抽象,而非大数据暴力拟合,AI中对应元学习、世界模型、预测编码网络。

3、具有预测能力


婴儿的大脑是预测机器。他们不断构建关于世界的内部模型,用于预测下一步会发生什么,6个月婴儿对“违反物理预期”的事件(如物体穿墙)表现出更长注视(Baillargeon的“违反期望”实验);他们通过预测他人行为来区分“有意图”与“偶然”动作(Woodward, 1998);甚至能预测简单社交互动中的“回报”(如微笑是否得到回应)。所以,智能的核心不仅是反应,更是主动预测未来并最小化预测误差。AI中对应世界模型、模型预测控制(MPC)、主动推理。

总之,表面上看,婴儿智能的“三把钥匙”与AI的映射分别表现为:婴儿认知机制具有明确目标,内在动机(好奇心、安全感),AI对应技术是内在奖励、好奇心驱动的RL;婴儿可以从经验学习,能够统计学习+因果推理+预测误差,AI对应的技术是元学习、自监督学习、世界模型;婴儿预测能力体现在内部模型+违反期望检测,AI对应的技术是预测编码、生成模型、主动推理。更深层上的分析,婴儿智能的真正秘密,或许在于“发展”本身——不是“天生聪明”,而是通过身体与环境、通过自主与自我持续交互,逐步构建具身智能、离身智能与反身智能。

这意味着智能并不是静态算法,而是动态发展过程;身体(具身、离身、反身性)和社交(他人、符号、自我)是认知的组成部分;学习不是任务导向,而是生存导向。因而,未来AI的突破,可能不在于“更大的模型”,而在于像婴儿一样:从一无所知开始,在真实世界中自己学会思考。


附录说明:预测编码

预测编码(Predictive Coding)是近年来认知科学和神经科学中最具颠覆性的理论之一。它认为大脑不是被动接收信息的“刺激-反应机器”,而是主动生成预测的“假设-验证机器”,即 “你看到的不是世界本身,而是大脑对世界‘应该是什么样子’的预测。”


预测编码核心原理是最小化预测误差,预测编码框架由Karl Friston等人发展,核心方程是自由能原理(Free Energy Principle):


大脑 ≡ 预测机器


目标 ≡ 最小化预测误差(即感官输入与内部模型的差异)


例如,你看到一张模糊的狗的照片,大脑会:


(1)自上而下生成预测:“这应该是一只狗”;

(2)自下而上接收感官信号:模糊边缘、棕色毛发;

(3)比较:如果预测足够解释信号,你就“看到狗”;

(4)如果误差太大(比如突然发现有翅膀),大脑更新预测:“可能是蝙蝠?”


感知 = 预测与感官信号的折中;学习 = 更新模型以减少未来误差;注意 = 分配更多资源给高误差区域(“误差显著性”)。


婴儿中的预测编码证据


实验1:违反期望(Violation of Expectation)


场景:5个月婴儿看汽车穿过墙壁的动画。

结果:婴儿盯着更久(高预测误差)。

解释:婴儿的“物理模型”预测“固体不能穿透”,误差触发注意和学习。


实验2:音频预测


场景:婴儿听到“ba ba ba”重复,突然变成“ba ba bi”。

结果:婴儿大脑前额叶出现误差信号(EEG的MMN成分)。

解释:听觉皮层预测“下一个音是ba”,误差驱动模型更新。


预测编码的层级结构


大脑以层级生成模型工作:


高阶,抽象概念(“这是一只狗”),如“狗会叫”


中阶,物体特征(“毛茸茸+四腿”),如“边缘是 curved”


低阶,原始感官(“棕色像素块”),如“光强在 x, y 位置增加”


误差反向传播:高阶预测被送到低阶,解释不了的误差向上传递,驱动高层更新。


AI中的预测编码


 1. PredNet(2016,MIT)


架构:卷积神经网络模拟层级预测编码。

训练:预测下一帧视频,最小化预测误差。

能力:自发学会运动检测、物体边界,无需标签。


 2. 主动推理(Active Inference)


思想:智能体通过行动减少预测误差(而不仅仅是更新模型)。

例子:机器人看到杯子在桌边(预测“会掉”),于是伸手推回去(主动消除误差)。


 3. 生成模型(如VAE, diffusion)


本质:学习数据的生成预测,新样本 = 从预测模型采样。


争议与挑战


1、误差谁定义? 预测误差需要先验(如“物体不能悬浮”),这些先验从哪来?


2、计算成本,层级反向传播是否能在生物神经元实现?(有理论称由反馈连接完成)


3、意识难题,预测编码能解释无意识感知,但如何解释主观体验仍开放。


 预测编码的“三句话”


1. 大脑是贝叶斯预测机:先验 + 感官 = 后验。


2. 感知 = 可控的幻觉:你“看到”的是大脑最佳猜测。


3. 学习 = 降低惊奇,智能体(婴儿或AI)通过更新模型或改变world来减少误差。



mmexport1754364450449.jpg


转载本文请联系原作者获取授权,同时请注明本文来自刘伟科学网博客。

链接地址:https://wap.sciencenet.cn/blog-40841-1504295.html?mobile=1

收藏

当前推荐数:5
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?