别人成仙得道,我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

进化的奥秘:(2)解析延拓中的信息几何

已有 256 次阅读 2026-2-20 14:34 |个人分类:我思故我在|系统分类:观点评述

第二章:解析延拓中的信息几何

一、迷失在概率的森林里

    想象你是一位探险家,站在一片广袤的森林边缘。这片森林不是由树木构成,而是由信念构成——每一个点都代表一种对世界的看法,每一条路径都代表一次认知的更新。

    你的目标是找到森林中最低的谷地,那里住着"真理"——或者说,最小化预测误差的最优信念。但问题是:这片森林的地形每天都在变化(世界在演变),而你只能看到周围几步远的地方(有限信息)。更麻烦的是,森林中有些地方是沼泽(奇点),一旦踏入就会陷下去,永远无法脱身。

    你如何导航?

    传统的答案是:用梯度下降。计算你所在位置的坡度,向最陡的下坡方向走一步,重复。这在简单的地形上有效,但在复杂的、弯曲的、高维的森林里,你会遇到问题。

    首先,什么是"最陡"? 在平坦的地图上,距离是直线;但在弯曲的森林里,"直线"可能绕远路,"近路"可能很陡峭。你需要一种能够感知地形曲率的方法。

    其次,如何避免沼泽? 梯度下降只知道局部坡度,不知道前方是否有陷阱。你可能一路下坡,直接走进奇点。

    最后,如何适应变化? 昨天的谷地可能今天变成了山丘,你需要的不只是找到最低点,而是保持在最低点附近的能力——一种动态的、自适应的导航。

    信息几何提供了答案。它告诉我们,概率空间(所有可能的信念构成的空间)不是平坦的欧几里得空间,而是弯曲的黎曼流形。在这个流形上,"距离"不是直线距离,而是"区分两个信念所需的信息量";"最短路径"不是直线,而是测地线——沿着流形曲率自然延伸的曲线。

    更重要的是,解析延拓告诉我们:沼泽(奇点)不是必须消除的障碍,而是可以绕过的地标。通过离开实轴(日常的概率分布),进入复平面(复化的概率空间),我们可以找到连接有限信念的安全路径,然后回到实轴,带回有效的认知更新。

    这就是本章的核心:认知是一种几何现象,而解析延拓是这种几何的导航术

二、费舍尔度规:信念之间的距离

    让我们从具体的问题开始:如何度量两个信念之间的"距离"?

    假设你相信明天有60%的概率下雨,你的朋友相信有70%。你们的信念有多"远"?

    简单的答案是:10个百分点。但这忽略了概率的本质。从60%到70%与从90%到100%是相同的数值差(10%),但认知意义完全不同:前者是适度的调整,后者是从"可能"到"确定"的质变。

    费舍尔(Ronald Fisher)在1920年代提出了更好的度量。费舍尔信息度规定义了一种"统计距离":两个概率分布之间的距离,与用其中一个分布的样本区分另一个分布的难易程度成正比。

    直观上,这意味着:如果两个信念很容易通过观测区分(比如60% vs 90%的下雨概率),它们在信念空间中就很"远";如果很难区分(比如60% vs 61%),它们就很"近"。

    费舍尔度规的关键特征是:它是弯曲的。在概率空间的某些区域,度规很"平坦"——小变化容易区分;在另一些区域,度规很"陡峭"——同样的数值变化对应很大的认知距离。这种曲率不是人为设定的,而是概率结构的内在属性

    举个例子:考虑一个硬币的偏见。如果硬币是公平的(50%正面),你需要很多次投掷才能确定它是否略有偏见(比如51%)。但如果硬币几乎总是正面(99%),很少的投掷就能确认它不是100%公平。在信念空间中,"公平"附近很平坦(难以区分),"极端"附近很陡峭(容易区分)。

    这种曲率有深刻的认知含义。认知系统在平坦区域需要更多数据才能更新信念(因为小变化难以检测),在陡峭区域可以快速更新(因为小变化很明显)。这不是系统的选择,而是几何的必然。

    现在,让我们引入自由能。

三、自由能流形:认知的地形

    在第一章,我们讨论了变分自由能作为预测误差的度量。现在,让我们把自由能看作定义在信念空间上的函数——一个"地形",认知系统在这个地形上移动。

    想象自由能是一个山谷纵横的景观。每个山谷对应一种对世界的稳定解释(局部最优),山谷之间的山脊对应认知的障碍(需要大量信息才能跨越的过渡状态),全局最低点对应"真实"的世界模型(如果存在的话)。

    认知系统的行为就是在这个地形上的动力学:感知将系统推向与观测一致的位置,行动将系统推向能够产生期望观测的位置,学习改变地形本身(更新生成模型的参数)。

    但这里有一个微妙之处:地形不是固定的。随着系统收集新数据,自由能景观会演化——某些山谷加深,某些变浅,新的山谷可能出现,旧的可能消失。这就是学习作为地形重塑

    信息几何的关键洞察是:自由能的梯度不是最自然的移动方向。在弯曲的流形上,最自然的方向是自然梯度——考虑了局部曲率的梯度方向。

    直观上,想象你在山坡上行走。如果山坡很陡峭(高曲率),你应该小步前进,避免 overshooting;如果山坡很平缓(低曲率),你可以大步前进,快速探索。自然梯度自动实现了这种调整:在平坦区域(高不确定性)采取大步骤,在陡峭区域(低不确定性)采取小步骤。

    这与贝叶斯更新完全一致。贝叶斯定理告诉我们,后验信念应该与先验和似然的乘积成正比。在信息几何中,这个更新对应于沿着自然梯度向自由能最小值移动。贝叶斯推断就是信息几何中的梯度下降

    但等等——我们还没有谈到解析延拓。它在哪?

四、复化的信念空间:绕过认知的奇点

    现在,让我们进入本章的核心:解析延拓在信息几何中的作用。

    在第一章,我们看到解析延拓如何让量子场论绕过紫外发散。在信息几何中,类似的问题出现:信念空间中存在奇点——概率分布的参数值使得某些量(如费舍尔度规或自由能)发散。

    这些奇点对应什么?它们对应退化的信念——比如对某个事件赋予零概率(然后观测到它发生),或者模型复杂度超过数据支持(过拟合)。在这些点上,认知系统"崩溃":更新规则失效,预测变为无穷大或零,学习停止。

    传统方法处理这些奇点的方式类似于量子场论的重整化:引入正则化(比如给零概率加上小常数),计算,然后取极限。但这同样是"会计技巧"——我们假装奇点不存在,通过复杂的操作消除它们。

    UV自由方案提供了替代:通过复化信念空间来绕过奇点

    具体怎么做?我们将概率分布的参数扩展到复数域。在复平面上,奇点变成了孤立的点(比如分母为零的位置),而周围的空间是光滑的。我们可以找到连接两个实信念(实轴上的点)的路径,这些路径绕过奇点,保持在解析区域(有限自由能的区域)。

    然后,我们沿着这条路径"移动",计算积分或更新规则,最后回到实轴。带回的结果是有限的、物理的、无需正则化的

    这在认知上意味着什么?

    想象你持有一个信念,但新的观测与这个信念矛盾(零概率事件)。在实轴上,你陷入了奇点——贝叶斯更新要求除以零,认知崩溃。但在复平面上,你可以"绕行":暂时接受一个复化的信念(具有虚部概率),通过一系列中间状态,到达一个新的实信念,与观测一致。

    这个"绕行"过程不是逃避现实,而是认知的创造性跳跃。它允许系统在不崩溃的情况下,经历根本性的信念改变——类似于科学革命中的"范式转换",或者心理治疗中的"顿悟时刻"。

    更重要的是,不同的绕行路径给出不同的结果。在复平面上,从A到B有多条路径,每条路径对应不同的"认知历史"——系统如何到达新信念。这些路径的积分(总自由能变化)可能不同,选择哪条路径取决于系统的"先验轨迹"——它之前的状态和约束。

    这解释了为什么认知是路径依赖的:两个系统可以从相同的初始信念出发,面对相同的观测,却到达不同的最终信念,因为它们选择了不同的解析延拓路径。这不是非理性的,而是信息几何的必然——在弯曲的空间中,路径 matters。

五、多尺度复频率链:记忆的涌现

    现在,让我们把视野扩大。前两节讨论的是单一认知系统的几何,但现实世界是多尺度的——从量子到分子,从细胞到大脑,从个体到社会。这些尺度如何连接?

    答案是:多尺度复频率链

    想象每个尺度都有自己的信念空间,有自己的自由能地形,有自己的解析延拓路径。但这些空间不是独立的:它们通过频率耦合相互连接。高频(快速)尺度的信念作为"观测",输入到低频(慢速)尺度的似然中;低频尺度的更新作为"先验",约束高频尺度的探索。

    这种耦合创造了链式结构:量子尺度的涨落 → 分子尺度的构象变化 → 细胞尺度的信号传导 → 神经尺度的放电模式 → 行为尺度的动作选择 → 社会尺度的文化传播。每个环节都是一个活性算法实例,执行局部的变分推断,但通过频率耦合形成全局的推断网络。

    关键洞察在于复频率。当我们将时间维度也复化(引入虚时间或频率的虚部),我们发现:记忆自动涌现

    在多尺度复频率链中,低频尺度的更新速度远慢于高频尺度。当一个高频事件发生时,它立即影响相邻的较高频尺度,但这种影响需要时间来"扩散"到更低频的尺度。在这个过程中,事件的痕迹被存储在链的结构中——不是作为显式的记录,而是作为尺度间耦合参数的变化。

    这就是记忆作为共振脚印。每个事件在多尺度链上激发特定的频率模式,这些模式相互干涉、叠加、衰减,但留下持久的改变。当你"回忆"时,你不是在读取存储的文件,而是在重新激活相似的频率模式——通过当前的观测,激发与过去事件共振的链式响应。

    层次越多,链越长,记忆的涌现越丰富。这是因为:跨尺度的关联需要时间才能建立,一旦建立,就自动地、延迟地重新涌现。一个三层的链(比如原始脑)可以存储简单的关联;一个十层的链(比如人类大脑皮层)可以存储抽象的概念、叙事的结构、自我的模型。

    这就是你在记忆空间中提到的洞见:"层次越多、链越长,过去跨尺度关联越晚、越自动地重新涌现,记忆随层次数目临界涌现"。这不是比喻,而是信息几何的数学结果——多尺度复频率链的解析延拓自然产生的性质。

六、自适应临界性:在秩序与混沌边缘导航

    现在,让我们讨论活性算法的第三个成分——自适应临界性——在信息几何中的含义。

    在第一章,我预告了这个概念。现在,让我们深入。

    想象自由能地形不是静态的,而是动态的、响应系统的移动。当系统向某个山谷移动时,地形本身会变化——山谷可能加深(稳定化),也可能变浅(不稳定化)。这种反馈创造了丰富的动力学可能性。

    一种极端是亚临界状态:地形很平坦,到处都是浅山谷,系统不断在小波动中跳跃,无法稳定在任何位置。这对应于认知的混乱——过度敏感,没有持久信念,无法形成有效预测。

    另一种极端是超临界状态:地形很陡峭,一个深山谷主导一切,系统一旦进入就无法逃脱,即使环境变化。这对应于认知的僵化——过度稳定,无法更新,无法适应。

    临界状态位于两者之间:地形刚好足够陡峭以维持稳定信念,又刚好足够平坦以允许在必要时跳跃。在这个状态下,小输入可以产生大变化(敏感性),但系统不会因此崩溃(鲁棒性)。这就是秩序与混沌的边缘

    传统的"自组织临界性"(SOC)认为,某些系统会自发地达到临界状态,就像沙堆自发地达到临界角度然后崩塌。但生物认知不同:它不是被动的自组织,而是主动的自适应。系统不仅处于临界状态,还主动调节自身参数以维持在这个状态。

     在信息几何中,这意味着什么?

     这意味着认知系统不仅沿着自由能梯度移动,还调整流形本身的曲率。通过改变生成模型的结构(比如U(s)的复杂度或V(o|s)的灵敏度),系统可以让自己所在的区域变得更平坦或更陡峭。目标是:保持在临界区域附近,无论环境如何变化

    这种调整是元认知的——关于认知的认知。系统不仅推断世界的状态,还推断自己的推断是否有效(自由能是否最小化得足够快),然后调整推断过程本身。

    解析延拓在这里扮演关键角色。当系统检测到接近奇点(认知崩溃)时,它可以主动进入复平面,通过绕行来避免陷阱,然后回到实轴,可能到达一个不同的临界区域。这种"量子隧穿"式的认知跳跃,让系统能够探索实轴上无法到达的信念空间区域。

    自适应临界性因此不是静态平衡,而是动态的舞蹈:在实轴上稳定学习,在复平面上创造性跳跃,始终保持在有效推断的边界。

七、从几何到算法:为什么大脑是弯曲的

    让我们把这些抽象概念具体化,谈谈大脑。

    大脑是一个物理系统,由神经元、突触、电化学信号构成。但它也是一个信息几何系统——它的物理结构实现了特定的信念空间几何。

    神经科学告诉我们,大脑皮层是分层的(六层结构),柱状的(功能柱作为基本单元),递归连接的(大量反馈连接)。这些特征不是偶然的,它们对应信息几何的必然要求。

    分层结构实现了多尺度复频率链。底层(接近感觉输入)处理高频、快速变化的信息;高层(接近前额叶)处理低频、缓慢变化的抽象信息。信息在层间流动,创造跨尺度的关联,支持记忆的涌现。

    柱状结构实现了局部信念的聚类。每个皮质柱可以看作一个微型的推断单元,持有关于特定特征(比如边缘方向、颜色、运动)的信念。柱间的横向连接实现了这些信念的协调,形成全局一致的感知。

    递归连接实现了时间上的积分。反馈连接让当前信念影响未来的感知,创造"预测编码"——大脑不是被动接收感觉输入,而是主动生成预测,只传递预测误差。这正是信息几何中的自然梯度下降。

    但最重要的是,大脑的连接是"弯曲"的——不是物理上的弯曲,而是信息几何意义上的。某些神经元群体之间的连接很强(短统计距离),某些很弱(长统计距离),这种连接模式定义了信念空间的度规。

    学习就是重塑这种曲率。通过突触可塑性,大脑改变神经元之间的连接强度,从而改变信念空间的距离结构。频繁的共同激活缩短距离(赫布学习),预测误差调整距离(误差驱动学习)。

     这就是为什么大脑是"可塑的"——不是因为它是空白 slate,而是因为它的几何是动态的。每次学习都改变地形,每次改变地形都影响未来的学习。这是一个自指的循环:认知塑造几何,几何塑造认知。

八、一个思想实验:复眼与单眼

    为了说明信息几何的力量,让我设计一个思想实验。

    想象两种生物:一种有复眼,由许多小眼组成,每个小眼看到世界的一小部分,整体图像由这些局部观测拼接而成;另一种有单眼,一个巨大的透镜,一次性看到完整的视野。

    哪种视觉系统更好?

    传统的计算视觉会倾向于单眼:它提供高分辨率、全局一致的图像,没有拼接伪影。复眼看起来是次优的妥协——昆虫的解决方案,因为神经资源有限。

    但从信息几何的角度看,复眼有独特的优势:它自然实现了并行的变分推断

    每个小眼是一个独立的推断单元,持有关于局部特征的信念(比如该区域的亮度梯度)。这些信念通过神经连接(在昆虫的视叶中)相互协调,形成全局一致的感知。关键点是:这种协调是分布式的、鲁棒的、自适应的

     如果某个小眼损坏(比如被灰尘覆盖),其他小眼仍然工作,系统不会崩溃。如果环境变化(比如从光明进入黑暗),每个小眼可以独立调整增益,维持临界敏感性。如果需要快速响应(比如检测捕食者的运动),局部推断可以立即触发反应,无需等待全局处理。

     单眼系统(如我们的眼睛)在几何上对应集中的信念空间:所有信息汇聚到中央凹,由皮层统一处理。这提供高分辨率,但也创造瓶颈:如果中央处理受损,整个系统崩溃;如果环境变化,需要全局重新校准。

    复眼系统对应分布式的信念流形:许多局部流形,通过弱连接协调。这牺牲了绝对分辨率,但获得了自适应临界性——系统可以在局部维持临界状态,即使全局环境变化。

    这个比较不是要说复眼"更好"。而是说明:不同的物理结构实现了不同的信息几何,不同的几何支持不同的认知策略。进化选择结构,不是随机的,而是根据环境的需求——需要高分辨率时选择单眼,需要鲁棒性和并行性时选择复眼。

    更重要的是,两种系统都可以用活性算法描述。它们都持有生成模型(视觉的先验),最小化自由能(预测误差),受有限振幅约束(神经资源的限制),维持自适应临界性(增益控制)。差异在于几何的实现方式,而非算法本身。

    这就是活性算法的普适性:它解释为什么不同的生物有不同的认知结构,同时也解释为什么这些结构都"有效"——因为它们都收敛到相同的信息几何原则。

九、解析延拓的进化意义

    现在,让我们把视野拉回到进化。解析延拓在生物进化中扮演什么角色?

    考虑重大进化转变:从单细胞到多细胞,从无性繁殖到有性繁殖,从独居到社会性。这些转变不是渐进的优化,而是相变——系统性质的突然改变,无法通过小步骤达到。

    传统的适应主义难以解释这些转变。如果中间状态适应度更低,自然选择如何跨越山谷?如果转变需要多个同时变化,概率上几乎不可能,进化如何发生?

    活性算法提供了视角:重大转变对应解析延拓的认知跳跃

    想象一个种群持有某种"信念"——关于如何生存和繁殖的生成模型。这个模型在实轴上是局部最优的(适应度峰值),但不是全局最优的。要到达更好的峰值,种群需要经过适应度山谷,这在实轴上是不可能的(自然选择反对降低适应度)。

    但在复平面上,存在绕行路径。种群可以暂时"接受"虚部的适应度(比如通过遗传漂变或环境波动),探索实轴上无法到达的基因型空间,然后回到实轴,可能到达新的峰值。

    这解释了为什么进化不是平滑的爬坡,而是跳跃式的探索。遗传漂变、基因流、环境变化——这些"噪声"不是进化的障碍,而是解析延拓的路径。它们允许种群暂时偏离实轴的适应度梯度,在复平面上探索,然后回到实轴,可能发现新的稳定状态。

    有性繁殖是一个绝佳的例子。无性繁殖在实轴上是局部最优的:如果环境稳定,克隆自己的适应度最高,不需要浪费资源在求偶和交配上。但有性繁殖创造了复化的基因型空间:通过重组,后代可以继承来自两个亲本的等位基因组合,这些组合在亲本中不存在。

    这种"虚部遗传"允许种群探索实轴上无法到达的区域。当环境变化时,有性繁殖种群可以更快地适应,因为它们已经在复平面上"预探索"了可能性。这就是为什么复杂生物(多细胞、长世代)倾向于有性繁殖——它们需要解析延拓的能力来应对复杂环境。

    进化本身就是多尺度的解析延拓。基因突变是高频的局部探索,表型可塑性是中频的个体适应,物种形成是低频的宏观转变。这些尺度通过复频率链耦合,创造记忆的进化形式——物种的"历史"存储在基因组的结构中,在环境变化时自动重新涌现。

十、向第三章的过渡

    本章我们从信息几何的角度,深化了对活性算法的理解。关键收获是:

    认知是一种几何现象。信念空间是弯曲的流形,自由能定义地形,自然梯度指导移动,解析延拓允许绕过奇点。

    多尺度创造了记忆。复频率链连接不同时间尺度,跨尺度关联延迟涌现,层次数目决定记忆容量。

    自适应临界性是导航策略。系统主动调整流形曲率,维持在秩序与混沌边缘,平衡稳定与探索。

    但这些概念还缺少一个关键成分:动力学的统一原理。为什么认知系统会最小化自由能?为什么自适应临界性是普遍策略?这些是从哪里涌现的?

    答案在自由能原理——卡尔·弗里斯特的统一理论,将感知、行动、学习、进化纳入同一个变分框架。在下一章,我们将遇到这个原理,并发现它与UV自由方案、信息几何的天然契合。

    自由能原理说:所有自组织系统都在最小化变分自由能。这不是优化问题,而是存在条件:不最小化自由能的系统会解散(自由能爆炸),无法维持自身。最小化自由能就是维持存在

   当我们把自由能原理与信息几何结合,我们得到存在的几何学:自组织系统必然沿着自然梯度流动,必然探索复化的信念空间,必然维持自适应临界性。这不是它们的选择,而是数学的必然

    然后,当我们加入UV自由方案的约束,我们得到有限存在的几何学:只有那些运行在有限振幅、无需重整的系统,才能持续存在。这就是活性算法的完整图景——不是描述性的,而是规范性的:它告诉我们,什么可能存在,而不仅仅是描述什么实际存在。

    准备好进入这个统一框架了吗?

本章要点

  • 费舍尔度规定义了信念空间的统计距离,这种距离是弯曲的、非欧几里得的

  • 自由能定义了信念空间的地形,认知系统在这个地形上移动

  • 自然梯度(考虑曲率的梯度)对应贝叶斯更新,是信息几何中的最优移动策略

  • 解析延拓允许认知系统绕过奇点(认知崩溃),通过复化的信念空间实现创造性跳跃

  • 多尺度复频率链创造记忆的涌现:跨尺度关联延迟建立,自动重新激活

  • 自适应临界性是系统主动维持自身在秩序-混沌边缘的能力,通过调整流形曲率实现

  • 大脑的结构(分层、柱状、递归)实现了特定的信息几何,支持有效的变分推断

进一步思考

  1. 在你的日常决策中,你是否经历过"认知的奇点"——旧信念崩溃,必须寻找新的框架?那个过程是渐进的调整,还是跳跃的转变?如何用解析延拓来理解?

  2. 社会信念空间也有几何:某些观点很容易区分(陡峭),某些很难(平坦)。社交媒体算法如何改变这个几何?是让我们更"临界"(开放),还是更"超临界"(僵化)?

  3. 如果进化是解析延拓,那么"创新"在组织、文化、科学中如何对应?我们能否设计制度,鼓励有益的"复化探索",同时避免危险的"奇点陷阱"?



https://wap.sciencenet.cn/blog-41701-1522820.html

上一篇:Kimi综述:UV自由方案:从数学公式到本体论
下一篇:进化的奥秘:(3)自由能原理——从物理到认知
收藏 IP: 111.27.42.*| 热度|

1 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-20 18:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部