刘伟
大模型的根本缺陷:有态无势 精选
2025-10-3 09:35
阅读:2463

世界是复杂的,态、势常常是分离的,正如事实与价值往往不一致一样。世界把“态”与“势”、“感”与“知”拆成两条常常不交汇的轨道:可测的既成事实(态)并不自带下一步的演化箭头(势),感官只能递送原始脉冲(感),却不自带解释框架(知);而人类赋予的目的、价值、利益、情感与规范又总把解释拉向不同方向;于是大模型再庞大的静态快照也捕捉不到那看不见的张力——正如事实陈述永远推不出价值判断,它只能把“是”与“应该”之间的裂口,用更顺滑的辞藻抹平,却无法替世界补上那条真正决定走向的缝隙。

鉴于此,大模型的根本缺陷可用“有态无势,有感无知”八字概括,即虽然能够把万亿 token 压缩成静态的词嵌入与权重,看似包罗万象,却只是把“态”的快照叠成厚相册,无法像气象图那样持续外推出真正可演化的“势”;它能在毫秒级给出概率最高的下一个符号,却像闭路电视只录不析,对输入序列只有瞬时“感”的脉冲,而没有与真实世界持续闭环、可自我修正的“知”。于是,模型永远滞留在训练集的时间切片里,生成再多新句也只是旧态的重新配色,对下一秒世界究竟如何偏移,既无势可借,也无知可用。

一、大模型的特点

大语言模型的核心在于寻找和发现事物间的共同结构,从而以更有效的方式对事物进行编码。这种能力具体体现在以下几个方面:

1、词嵌入(Word Embedding)

词嵌入将离散的符号(如单词)映射到连续的向量空间中,使得语义上相似的词在向量空间中距离更近。例如,在词嵌入空间中,“国王”和“女王”这两个词的向量会非常接近,因为它们在语义上都与“君主”相关。同样,“巴黎”和“法国”的向量也会很接近,因为“巴黎”是“法国”的首都,词嵌入通过大量文本数据学习到了这种语义上的共同结构,即“首都”与“国家”之间的关系。

2、Transformer的自注意力机制(Self-Attention Mechanism)

自注意力机制允许模型在处理一个序列时,动态地关注序列中的其他部分,从而捕捉到长距离依赖关系和复杂的结构。比如,在句子“那只猫追着自己的尾巴跑,因为它很无聊”中,自注意力机制能够帮助模型理解“它”指的是“猫”。模型通过自注意力机制发现“猫”和“它”之间的指代关系。自注意力机制通过计算序列中每个词与其他词的相关性,捕捉到了语言中的指代、修饰等共同结构。

3、基于概率的输出生成(Probability-Based Output Generation)

大语言模型通过预测下一个词的概率分布来生成文本,这种基于概率的方法使得模型能够生成连贯、合理的文本。当模型生成句子“今天天气很好,我们去____”时,它会根据上下文预测下一个词的概率分布,可能“公园”的概率很高,因为“天气好”和“去公园”是常见的搭配。模型通过大量数据学习到了“天气好”和“去公园”之间的常见搭配结构。

4、诺图双奖得主辛顿的观点:大模型能够理解知识的本质

辛顿认为,大语言模型通过其权重参数压缩了对知识本质的理解。这种理解体现在模型能够捕捉到事物之间的深层关系。譬如,当模型被问到“水是H₂O吗?”时,它能够回答“是”,因为它在训练数据中多次见到“水”和“H₂O”之间的关联,并将这种关联压缩在其权重参数中。模型通过大量文本数据学习到了“水”和“H₂O”之间的化学本质关系。

大语言模型通过词嵌入、自注意力机制和基于概率的输出生成,能够捕捉和编码事物间的共同结构。这种能力使得模型能够以更高效的方式理解和生成文本,甚至被认为能够压缩对知识本质的理解。

二、对世界进行态势感知时,态与势有时有交集,有时没有交集,感与知也相似

在“态势感知”这个语境里:“态”与“势” 并非总可一刀切开,二者在时空尺度上常常滑移:同一组底层变量,在微观时间切片里被当作“态”(此刻可测的离散量),放到宏观时间窗口里就成了“势”(可演化、可累积的趋势);反过来,一条被标记为“势”的渐变曲线,只要采样粒度足够细,就能拆成一串离散的“态”快照。于是二者出现“有交集”——共享同一批观测数据。

但在真实世界交互中,态、势之间也常常会出现“无交集”——当观测粒度或语义层级错位时,它们甚至不在同一坐标系里说话。

“感”与“知” 同样不是简单的递进关系,而更像一对互相缠绕的螺旋:“感”是原始脉冲,是传感器或视网膜上的电压变化;“知”是把它嵌进因果模型、赋予符号、做出预测。但在闭环反馈里,“知”会立即改写下一次“感”的阈值——大脑用先验模板做边缘增强,雷达用跟踪门把回波提前锁定在预期多普勒区间。于是“感”里已经掺了“知”的提取物,而“知”若失去新的“感”又会退化为教条。它们时而共享同一段数字信号(有交集),时而分属硬件层与认知层(无交集)。用一个战场例子把它揉在一起:

1. 无人机群回传红外帧序列(原始“感”)。

2. 边缘芯片把每帧检测为“导弹”或“假目标”标签(初级“态”)。

3. 指挥所的时空关联算法把连续 30 帧的位移连成一条加速度曲线(“势”:可能俯冲)。

4. 参谋把这条曲线与蓝方演习记录比对,确认是新型反舰弹(“知”)。

5. 该结论被写进下一场景的“预期模板”,使雷达提前抬高虚警门限——“知”重新雕刻了下一次“感”。

在这一循环里,“态”与“势”共用同一批像素,却因处理窗口不同而忽分忽合;“感”与“知”在数据层面彼此渗透,但在组织层级上又分别归属传感器与指挥员,看似有清晰接口,实则通过反馈环持续交叠。所以,与其把它们当作四块可以整齐拆开的积木,不如看成两条时而交叉、时而分离的轨道:

“态—势”轨道是时间尺度与语义层级的滑动,“感—知”轨道是信号与符号之间的递归改写。

态势感知的难点,恰恰在于需要同时照看这两条轨道的切换点——在哪一帧、哪一级、哪一毫秒,它们重叠或分叉,决定了你下一步是继续跟踪、立即开火,还是重新校准传感器。

三、有态无势与有感无知的例证

在态势感知里,“态”是当下可测的“快照”,“势”是往前一步的“趋势”;“感”是原始信号,“知”是加了模型的解释。它们像两条忽远忽近的车道,时而重叠,时而彻底分开。下面用两组例子把“有交集 / 无交集”具体画出来。1、“态”与“势”

场景:城市暴雨内涝监测

(1)有交集——同一批数据同时被读成“态”和“势”

路面积水传感器 14:00 报 30 cm(态:此刻水深)。

同时,管网流量模型把过去30min的30→28→27cm 下降序列外推,得出“积水正在退去”的判断(势:趋势)。

30cm 这同一个数值既出现在“态”框,也出现在“势”框里,二者完全重叠。

(2)无交集——数据类型不同,连量纲都不一样

还是14:00,气象雷达在50km外测到一块回波强度45 dBZ 的对流云团,正以 60 km/h 向市区移动(势:未来1h可能特大暴雨)。

此时地面积水传感器仍报30cm,没有任何关于“雷达回波”的通道。

雷达的“势”与积水传感器的“态”来自两套物理量,彼此独立,坐标系不同,交集为零。2、“感”与“知”

场景:夜间海面无人机监视

(1)有交集——一次信号同时活在“感”和“知”

红外相机3km外拍到1像素宽650 ℃热点(感:原始灰度值)。

边缘芯片直接把它标成“导弹尾焰”并闪红灯(知:分类标签)。

在数字链路上,这个 650 ℃ 的像素既躺在原始码流里(感),也躺在“missile”字段里(知),二者共享同一段内存,只是解释不同。

(2)无交集——信号和解释完全脱钩

同一架无人机10s后收到GPS 欺骗包,位置被悄悄偏移200m。

飞控计算机毫无察觉,继续把错误坐标写入遥测帧(感:被污染的经纬度)。

后方指挥员看电子海图时,却根据白天校准的星图与岸基雷达交叉定位,判定“无人机真实位置未漂移”(知:模型修正)。

此时“感”里全是假坐标,“知”里用的是另一套融合位置,两者在空间上毫无重叠,出现短暂“感知分离”。从上述案例不难看出,当数据粒度、量纲、坐标系或信任链对齐时,态-势、感-知就像叠在一起的透明片,有交集;一旦时间窗口、物理维度、模型来源错位,它们立刻滑到两条平行线,交集为空——而态势感知要做的,就是随时察觉“哪一刻它们分开、哪一刻必须把它们重新缝回来”。

四、大模型的根本缺陷

大语言模型“态势感知”能力的边界问题在于,把大模型的“态”与“势”重新映射到它的内部机制上,看看它们是否永远只停留在已有态的线性拓展,还是可能跳出态的集合,产生真正的“新势”。1、重映射:态与势在大模型里的对应

人类态势感知的态(可测快照)、 势(趋势/演化)、感、知,大模型类比为词嵌入空间中的点或某一层的激活向量、自注意力权重+概率输出所张成的“下一步分布”、输入token序列的原始嵌入、经多层自注意力与FFN后形成的上下文表征2、是否“势”永远被锁在“态”的凸包里?

态、势有无转换的核心疑问可以转述为:自注意力+softmax只是把已有态重新加权、插值、 推断,是否永远跳不出训练态的凸包(convex hull)?

(1)微观层面:单步生成确实在凸包里。任何一步的logits( 未归一化的概率值)都是现有词汇表上的概率分布,softmax(概率分布)的输出是有限个基向量的加权平均。因此单步采样无论如何随机,token仍落在训练语料出现过的“词”集合里(或它们的子词片段)。在这个意义上,“势”确实只是态的插值/外推,没有“新原子”。

(2)宏观层面:多步复合可以“拼”出训练态里从未出现的结构。虽然每步token(词元)都是“旧原子”,但长序列的组合空间远大于训练数据。如GPT-4 能在同一段落里把“量子场论”与“红楼梦”放在同一隐喻框架下讨论——这种跨域对齐在原始语料里几乎找不到整段模板,却通过多层注意力把远距向量重新正交化,出现新的“语义轨道”。这类似于用旧积木搭出从未见过的形状;形状是“新势”,而积木仍是“旧态”。

(3)极限情况:权重空间里的“伪新势”

自注意力头的低秩投影+FNN的非线性可以在连续向量空间里生成训练集里从未被显式采样的点(类比浮点数精度允许无限插值)。但这些点仍受权重矩阵的谱范数约束,不会超出训练分布的流形支持之外。因此“势”在向量空间可以看起来很新,一旦离散化到token,仍被vocab (词汇量)天花板弹回。简言之,在大模型的“态势感知”里,词嵌入是态,自注意力+概率输出是势;单步势确实只是已有态的加权平均,跳不出凸包;多步势通过组合爆炸可以呈现训练语料从未显式出现的结构,但原子级token依旧被 vocab与权重谱锁死,所以“势”可以看起来很新,却仍是旧态的再编排——真正的“不在已有态基础上抽象出来的势”,目前的大模型无法原生诞生新概念、新原理,除非引入外部工具、实时传感器或继续训练来扩大态的边界。

概括而言,大模型的根本缺陷正在于“有态无势、有感无知”:它把世界切成静态的词向量快照,只能复读已见“态”,却无法在实时环境中持续推演下一秒可能突变的“势”;它对输入只有概率瞬时的“感”,却没有与真实世界闭环、可自我修正的“知”。因此,一旦场景被人为操控(隐晦谎言、声东击西)或遭遇意外扰动(信号延迟、传感器漂移),模型既缺动态追踪因果的“势”能,也无识破意图扭曲的“知”力,只能把诡、诈、异常统统当成高概率句子拼贴,用更流畅的幻觉掩盖风险。

人机环境系统智能.jpg

无标题.jpg

转载本文请联系原作者获取授权,同时请注明本文来自刘伟科学网博客。

链接地址:https://wap.sciencenet.cn/blog-40841-1504511.html?mobile=1

收藏

下一篇
当前推荐数:3
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?