博文

描述与执行的语义空间统一：全球首次人工智能系统语义通信(第2届世界人工意识大会热身-媒体与顶刊速递系列)

已有 338 次阅读 2024-3-29 10:52 |系统分类:科研笔记

第2届世界人工意识大会热身-媒体与顶刊速递系列

The 2nd World Conference on Artificial Consciousness

第二届世界人工意识大会(DIKWP-AC2024)

Artificial Consciousness: The Confluence of Intelligence and Consciousness in the Interdisciplinary Domain

Nature Neuroscience | 18 March 2024

Natural language instructions

Induce compositional generalization in networks

of neurons

描述与执行的语义空间统一：全球首次人工智能系统语义通信

(译注：描述和执行突破概念空间+认知空间实现语义空间融合统一)

“瑞士日内瓦大学的一个科学家团队在人工智能（AI）研究方面取得一项突破：他们让两个AI系统进行了前所未有的语言交流。该成果发表在最新一期《自然·神经科学》上。”

——来源：科技日报

自然语言指令在神经元网络中诱导组合泛化

Reidar Riveland & Alexandre Pouget

人类认知的一个基本成就是解释语言指令以执行新的任务，而无需明确的任务经验。然而，可能用于完成此任务的神经计算尚不清楚。我们利用自然语言处理的进步创建了一个基于语言指令的泛化神经模型。模型在一组常见的心理物理任务上接受训练，并接收由预训练的语言模型嵌入的指令。我们最优秀的模型能够基于语言指令（即零次学习）正确执行以前未见过的任务，平均正确率为83%。我们发现，语言支撑了感觉运动表示，使得相关任务的活动与指令的语义表示共享一个共同的几何结构(译注：描述和执行从概念空间+认知空间到语义空间的DIKWP-融合)，允许语言在未见环境中正确组合练习过的技能。我们展示了这个模型如何生成一个新任务的语言描述，它仅通过运动反馈识别出来，随后可以指导合作伙伴模型执行该任务(译注：描述和执行在语义空间的DIKWP-融合)。我们的模型提供了几个可实验测试的预测，概述了为了促进人脑中灵活和泛化的认知，语言信息必须如何被表示。

在实验室设置中，动物需要多次试验才能获得一项新的行为任务。部分原因是与非语言动物的唯一沟通方式是简单的正负强化信号(译注：跨越语言概念的语义通信DIKWP-融合)。相比之下，常见的做法是给人类提供书面或口头指令，这使他们能够相对快速地执行新任务。此外，一旦人类学会了一项任务，他们通常能够用自然语言描述解决方案。使用指令执行新任务的双重能力，以及反过来，一旦学会任务就能产生对任务要求的语言描述，是人类交流的两个独特基石。然而，这些能力背后的计算原理仍然不是很清楚(译注：语义空间的存在计算与推理、本质计算与推理、意图计算与推理机制是潜在解决方案)。

一种有影响力的系统级解释认为，前额叶皮层中灵活的区域间连接允许在新环境中重复使用练习过的感觉运动表示。最近，多项研究观察到，当被试需要灵活地招募不同的刺激-反应模式时，神经表示是根据任务集的抽象结构来组织的。最后，最近的建模工作显示，一个多任务递归神经网络（RNN）会在具有类似需求的任务中共享动态模式。这项工作为人类灵活认知的解释提供了坚实的基础，但留下了一个问题：语言信息如何重新配置感觉运动网络，使其能够在第一次尝试时就很好地执行新任务。总的来说，我们还不清楚应该期望哪种表示结构从负责在大脑中整合语言信息以便即时重新组织感觉运动映射的区域中出现。

鉴于机器学习的最新进展已经导致了具有类似人类语言技能的人工系统(译注：双向理解沟通的人工意识标志)的出现。最近的工作将在被动听和阅读任务期间记录的神经数据与自回归语言模型（GPT）的激活相匹配，认为语言理解有一个根本上的预测组成部分。此外，一些备受关注的机器学习模型确实显示出利用自然语言作为提示执行语言任务或渲染图像的能力，但这些模型的输出在我们可能期望在生物系统中发生的感觉-运动映射方面难以解释。相比之下，最近对多模式交互式代理的研究可能更容易解释其所采取的行动，但它们利用了一个感知层次结构，在处理的早期阶段融合了视觉和语言，这使得它们难以映射到人类大脑中功能上和解剖上明确的语言和视觉区域。

因此，我们寻求利用语言模型的力量，以一种能够产生可测试的神经预测的方式，详细说明人类大脑如何处理自然语言，以便在感觉-运动任务中进行概括。

为此，我们在一组简单的心理物理任务上训练了一个RNN（感觉-运动RNN）模型，其中模型使用预先训练的语言模型处理每个任务的指令。我们发现，嵌入具有调整到句子级语义的模型的指令(译注：应考虑DIKWP语义形式化模型分析)使得感觉-运动RNN在平均情况下能够以83%的正确率执行新任务。我们模型中的泛化受到表征几何的支持，该几何捕获任务的子组件，并且在指令嵌入和感觉-运动活动之间共享，从而允许在新环境中组合实践技能。我们还发现，个别神经元根据指令的语义调节其调谐。我们展示了如何训练以解释语言指令的网络可以反转这种理解，并基于运动反馈信号中的信息产生先前未见任务的语言描述。最后，我们讨论了这些结果如何指导关于人类大脑中基于语言的泛化的神经基础的研究。

结果：

指导模型和任务集合

我们在一组包含50个相互关联的心理物理任务上训练感觉-运动RNN，这些任务需要各种在文献中得到深入研究的认知能力。如图1中a、b所示，这里展示了两个示例任务，它们可能在实验室环境中出现。对于所有任务，模型接收到感觉输入和任务识别信息，并且必须输出运动响应活动（图1 c）。输入刺激由两个一维的神经元图编码，每个图代表不同的输入模态，具有周期性的高斯调谐曲线到角度（在（0，2π）范围内）。输出响应以相同的方式编码。输入还包括一个单一的注视单位。在输入注视关闭后，模型可以对输入刺激做出响应。我们的50个任务大致分为5个组，即“前进”、“决策”、“比较”、“持续时间”和“匹配”(译注：应考虑DIKWP语义白盒测评布局)，其中组内任务共享相似的感觉输入结构，但可能需要不同的响应。例如，在决策（DM）任务中，网络必须朝着具有最高对比度的刺激方向做出反应，而在反决策（AntiDM）任务中，网络则对具有最弱对比度的刺激做出响应（图1 a）。因此，网络必须从任务识别信息中正确推断给定试验的任务需求，以便同时执行所有任务。

在我们的模型中，任务识别输入要么是非语言的，要么是语言的。我们使用两种非语言控制模型。首先，在 SIMPLENET 中，任务的标识由 50 个正交规则向量之一表示。其次，STRUCTURENET 使用一组 10 个正交结构向量，每个向量代表任务集的一个维度（即响应最弱方向与最强方向），并使用这些向量的组合对任务进行编码。因此，STRUCTURENET 完全捕获任务之间的所有相关关系，而 SIMPLENET 不对这种结构进行编码。

指示模型使用预训练的转换器架构为手头的任务嵌入自然语言指令。对于每个任务，都有一组相应的 20 条唯一指令（15 条训练，5 条验证）。我们测试了各种类型的语言模型，这些模型具有相同的基本架构，但其规模和预训练目标也不同。我们测试了两个自回归模型，一个是 GPT2 的标准版本，一个是大型版本，我们分别称之为 GPT 和 GPT （XL）。先前的研究表明，GPT激活可以解释阅读和听力的各种神经特征BERT 经过训练，可以识别一段文本中的掩码词，但它也使用了一个无监督的句子级目标，其中网络被赋予两个句子，并且必须确定它们在原始文本中是否相互跟随。SBERT 的训练方式与 BERT 类似，但对斯坦福自然语言推理任务进行了额外调整，这是一个手工标记的数据集，详细说明了两个候选句子之间的逻辑关系(译注：该类别对应DIKWP的知识类别K)。最后，我们使用来自CLIP的语言嵌入器，这是一个多模态模型，可以学习图像和文本标题的联合嵌入空。我们使用给定的语言模型将感觉运动RNN称为LANGUAGEMODELNET，并附加一个字母来指示其大小。对于每个语言模型，我们将池化方法应用于转换器的最后一个隐藏状态，并通过任务学习期间训练的一组线性权重传递此固定长度表示。这导致在所有模型（方法）中嵌入 64 维指令。除非另有说明，否则语言模型权重将被冻结。最后，作为对照，我们还测试了一个词袋（BoW）嵌入方案，该方案仅使用字数统计信息来嵌入每条指令(译注：该类别对应DIKWP的数据类别D)。

图1 任务和模型

a，b为在实验室环境中可能出现的示例试验的插图。指示试验，然后以不同的角度和强度对比刺激。然后，代理必须在响应期间以适当的角度进行响应。a，一个示例 AntiDM 试验，其中代理必须对以最小强度呈现的角度做出反应。b，一个示例COMP1试验，如果第一个角度的强度(译注：该类别对应DIKWP的信息类别I)高于第二个角度，则代理必须对第一个角度做出反应，否则会抑制反应。c，模型输入和输出图。感觉输入（注视单元、模态 1、模态 2）以红色显示，模型输出（注视输出、运动输出）以绿色显示。模型还会接收规则向量（蓝色）或通过预训练语言模型传递任务指令（灰色）所产生的嵌入。插图中提供了测试模型列表。

首先，我们验证我们的模型可以同时执行所有任务。为了使指令模型表现良好，它们必须推断每个任务的 15 个不同指令表述之间的共同语义内容(译注：未来应考虑DIKWP语义白盒测评布局以及对3不输入和输出的语义转换或不确定问题类型进行处理)。我们发现，除了GPTNET之外，所有指令模型都可以同时学习所有任务，GPTNET的某些任务的性能渐近线低于95%的阈值。因此，我们将使用 GPT 的模型的性能阈值放宽到 85%。此外，我们还根据验证说明测试了所有架构。 SBERTNET（L）和SBERTNET是我们表现最好的模型，在验证指令上的平均性能分别达到97%和94%，这表明这些网络即使对于全新的指令也能推断出正确的语义内容。

推广到新任务

接下来，我们研究了不同语言模型在多大程度上有助于推广到新任务。我们在 45 个任务上训练了单个网络，然后测试了暴露于 5 个保留任务时的性能。我们使用不等方差 t 检验来比较不同模型的性能。图 2 显示了最相关比较的 P 值结果。

图2 对新任务的性能进行建模

a为前 100 次接触保留任务的学习曲线在所有任务中平均。数据表示为不同 n = 5 感觉运动 RNN 权重随机初始化的平均±标准差。对于所有子图，星号表示根据双侧不等方差 t 检验，性能之间存在显著差异。大多数相关比较以图的形式呈现。

b为跨模型的泛化性能分布（即首次接触新任务）。

c-f为n = 5 种不同随机初始化的感觉运动 RNN 权重在不同测试条件下的性能，其中每个点表示给定初始化任务的平均性能。

c为在测试时交换指令的任务的泛化性能。

d为在训练期间保留来自同一系列的任务的模型的泛化性能。

e为允许语言模型的最后一层对感觉运动任务的损失进行微调的模型的泛化性能。

f为使用标准命令式指令的任务与使用带有条件从句的指令并需要简单演绎推理成分的任务之间的平均性能差异。

我们的无指令控制模型 SIMPLENET 在首次呈现新任务（零样本泛化）时平均执行率为 39%。这可作为泛化的基线。请注意，尽管提供给 SIMPLENET 的任务规则是正交的，但暴露于任务集允许模型学习所有任务通用的模式（例如，在固定期间始终抑制响应）。因此，39% 不是机会级别的性能本身，而是通过网络在具有一些常见响应要求的任务集上训练和测试的性能所达到的性能。GPTNET表现出57%的零样本泛化。这比 SIMPLENET （t = 8.32， P = 8.24 × 10）有了显著改进。引人注目的是，将 GPT 的规模增加一个数量级，达到 GPT （XL）使用的 15 亿个参数，仅比 BOWNET （64%）略有增加，GPTNET （XL）在保留任务上实现了 68% （t = 2.04，P = 0.047）。相比之下，CLIPNET （S）使用的参数数量仅为 GPTNET （XL）的 4%，但仍然能够实现相同的性能（正确率为 68%，t = 0.146，P = 0.88）。同样，BERTNET的泛化性能在平均值上仅落后于GPTNETXL 2%（t = −1.122，P = 0.262）。相比之下，具有句子级语义知识的模型在泛化方面表现出明显的改进，SBERTNET执行一项看不见的任务，平均正确率为79%。最后，我们性能最好的模型 SBERTNET （L）可以执行一项从未见过的任务，平均正确率为 83%，仅落后于 STRUCTURENET（正确率为 88%）几个百分点，后者接收在其规则向量中手动编码的任务集结构。

图 2中的b 显示了每个模型达到给定性能水平的任务数量的直方图。同样，SBERTNET（L）设法在零样本设置下几乎完美地执行了20多个任务。

为了验证我们表现最好的模型是否利用了指令的语义，我们提出了一个保留任务的感官输入，同时为另一个保留任务提供了语言指令。真正依赖语言信息的模型应该受到这种操纵的最大惩罚，正如预测的那样，我们看到最佳模型的性能下降幅度最大（图 2c）。

我们还测试了一种更严格的坚持程序，我们特意从同一系列任务中选择 4-6 个任务在训练期间坚持（图 2d）。总体而言，在这种更困难的设置下，性能有所下降，尽管我们表现最好的模型仍然表现出很强的泛化性，SBERTNET（L）和SBERTNET在新任务上的正确率分别为71%和72%，这与STRUCTURENET的72%没有显着差异（t = 0.629，P = 0.529; t = 0.064，P = 0.948; 分别用于 SBERTNET （L）和 SBERTNET）。

此外，我们在允许语言模型的权重根据感觉运动训练期间经历的损失进行调整的环境中测试了模型。这种操作提高了所有模型的泛化性能，对于性能最好的模型 SBERTNET （L），我们看到泛化与 STRUCTURENET 一样强（86%，t = 1.204，P = 0.229）。

从参考文献18中，我们在一个环境中测试了模型，其中给定任务的任务类型信息表示为训练集中相关任务的信息组合（即 AntiDMMod1 = （rule（AntiDMMod2） − rule（DMMod2）） + rule（DMMod1））。在此设置下，我们确实发现 SIMPLENET 的性能有所提高（正确率为 60%）。然而，当我们根据相同的组合规则组合嵌入式指令时，我们的语言模型明显优于 SIMPLENET。这表明，在语言上下文中进行训练更容易允许简单的组合方案成功配置任务响应。

最后，我们测试了每个模型的一个版本，其中语言模型的输出通过一组非线性层传递，而不是前面结果中使用的线性映射。我们发现这种操作降低了性能，表明这种增加的功率会导致训练任务的过度拟合，并且更简单的线性映射更适合泛化。

我们的指示模型之间的性能差异表明，为了表示语言信息，使其能够成功配置感觉运动网络，仅仅使用任何非常强大的语言处理系统是不够的。相反，模型的成功可以通过它们在预训练期间暴露于句子级语义的程度来描述。我们表现最好的模型 SBERTNET （L）和 SBERTNET 经过显式训练，可以产生良好的句子嵌入，而我们表现最差的模型 GPTNET 只针对即将到来的单词的统计数据进行调整。CLIPNET（S）和 BERTNET 都接触到某种形式的句子级知识。CLIPNET（S）对句子级表示感兴趣，但使用相应视觉表示的统计量来训练这些表示。BERTNET对输入句子在训练语料库中是否相邻进行双向分类。相对于这些相对较小的模型，GPTNET （XL）的 15 亿个参数并没有显着提高性能，这说明了模型大小不是决定性因素的事实(译注：该类别对应DIKWP的非数据D类别的特征)。最后，尽管 BoW 删除了语言意义（即语法）的关键元素，但简单使用单词出现主要编码了有关句子之间相似性和差异性的信息。例如，简单地表示包含或排除“更强”或“更弱”这两个词(译注：该类别对应DIKWP的信息类别I)，就可以很好地说明指令的含义。

我们还研究了语言的哪些特征使我们的模型难以概括。我们的 30 个任务需要处理具有条件子句结构的指令（例如COMP1），而不是简单的命令式（例如AntiDM）。使用条件子句指示的任务也需要一种简单的演绎推理形式（如果 p 则 q 否则为 s）。探索这种演绎过程与语言区域之间关系的神经影像学文献得出了不同的结论，一些早期研究表明，演绎招募了被认为支持句法计算的区域以及后续研究声称演绎可以可靠地与语言领域分离。这种结果变化的一种理论是，在早期研究中用于隔离演绎推理的基线任务使用了只需要表面处理的语言刺激。

为了探讨这个问题，我们计算了有条件从句/演绎推理要求和没有条件从句/演绎推理要求的任务之间的平均性能差异（图 2f）. 相对于一组随机洗牌，我们所有的模型在这些任务上的表现都更差。然而，我们也看到了STRUCTURENET和我们的指导模型之间的额外影响，其性能比STRUCTURENET差，具有统计学意义。这是一个关键的比较，因为STRUCTURENET在不依赖语言的情况下执行演绎任务。因此，STRUCTURENET和指令模型之间的性能下降部分是由于解析语法上更复杂的语言所固有的困难。这意味着，我们可能会看到语言领域参与演绎推理任务(译注：该类别对应DIKWP的知识类别K)，但这可能仅仅是由于相应指令的句法需求增加（而不是招募语言领域来明确帮助演绎的过程）。这一结果在很大程度上与对演绎推理文献的两篇综述一致，后者得出的结论是，早期研究中观察到的语言领域的影响可能是由于测试刺激的句法复杂性。

语言和感觉运动网络中的共享结构

然后我们转向对支持泛化的表征方案的调查。首先，我们注意到，与其他多任务模型一样，我们的感觉运动RNN中的单元表现出功能聚类，其中相似的神经元子集在相似的任务集中表现出高度差异。此外，我们发现模型可以通过训练感觉运动RNN输入权重并保持循环动力学恒定来学习看不见的任务。过去的研究表明，这些属性是网络的特征，这些网络可以在不同的环境中重用同一组底层神经资源。然后，我们检查了相关任务的神经表示之间存在的几何形状。我们绘制了 SIMPLENET、GPTNETXL、SBERTNET （L）和 STRUCTURENET 中刺激开始时感觉运动 RNN 隐藏活动的前三个主成分（PC），这些活动执行模态特异性 DM 和 AntiDM 任务。在这里，模型在两种模式中都接收决策任务的输入，但必须只关注与当前任务相关的模式中的刺激。重要的是，在以下示例中，AntiDMMod1 被排除在训练之外。此外，我们在每个任务中绘制了规则向量或指令嵌入的 PC。

图3 指示模型中的结构化表示

a-d为用 AntiDMMod1 训练的模型的感觉运动隐藏活动和任务信息表示的前三个 PC 保持不变。实线箭头表示抽象的“赞成”与“反”轴，虚线箭头表示抽象的“Mod1”与“Mod2”轴。a为STRUCTURENET。b为SBERTNET（L）。c为GPTNET（XL）。d，为SIMPLENET。e为保持任务CCGP与零射性能的相关性（Pearson's r = 0.606，P = 1.57 × 10 −46)。f为模型层次结构中每一层保留任务的 CCGP 分数。显著性分数表示在感觉运动 RNN 的保留任务的 CCGP 分数模型分布中进行的成对双侧不等方差 t 检验的 P 值结果。

对于 STRUCTURENET，隐藏活动沿任务相关轴进行分解，即活动空间中一致的“Pro”与“Anti”方向（实心箭头），以及“Mod1”与“Mod2”方向（虚线箭头）。重要的是，即使对于被排除在训练之外的 AntiDMMod1，也保持了这种结构，使 STRUCTURENET 能够在这项看不见的任务上实现 92% 的正确率。这种因式分解也反映在规则嵌入的 PC 中。引人注目的是，SBERTNET（L）还以一种仅使用从指令语义中推断出的结构来捕获任务集的基本组合性质的方式组织其表示。语言嵌入就是这种情况，它在 AntiDMMod1 指令之间保持抽象轴（同样，在训练之外）。因此，SBERTNET （L）能够将这些相关轴用于 AntiDMMod1 感觉运动-RNN 表示，从而实现 82% 的泛化性能。相比之下，GPTNET（XL）在感觉运动RNN表示或语言嵌入中都无法正确推断出明显的“Pro”和“Anti”轴，导致AntiDMMod1的零样本性能为6%（图3b）。最后，我们发现simpleNet使用的正交规则向量排除了练习任务和保留任务之间的任何结构，从而产生了22%的性能。

为了更精确地量化这种结构，我们测量了这些表示的跨条件泛化性能（CCGP）。CCGP 测量线性解码器经过训练以区分一组条件（即 DMMod2 和 AntiDMMod2）以推广到一组类似的测试条件（即 DMMod1 和 AntiDMMod1）的能力。直观地说，这捕捉到了模型在多大程度上学会了沿着抽象的任务轴（即“反”维度）放置感觉运动活动。值得注意的是，在实验中观察到高CCGP分数和相关措施，这些实验要求人类参与者在不同的相互关联的任务之间灵活切换。

我们测量了在训练之外的任务的感觉运动RNN表征中的CCGP分数，并发现CCGP分数与零射击表现之间存在很强的相关性（图3e）。此外，我们发现将任务指令交换为保留任务会显着降低所有指令模型的 CCGP 分数，这表明指令的语义对于维持结构化表示至关重要。

然后，我们研究了结构在语言处理层次结构中是如何出现的。我们模型中不同层的CCGP解码分数。如图3f所示。对于每个指示模型，绘制了 12 个转换器层（或 SBERTNET （L）和 GPTNET （XL）的最后 12 层）、64 维嵌入层和 Sensorimotor-RNN 任务表示的分数。我们还绘制了非语言模型中使用的规则嵌入的 CCGP 分数。在模型之间，抽象结构的出现方式存在显着差异。自回归模型（GPTNETXL、GPTNET）、BERTNET 和 CLIPNET （S）在整个语言模型层中显示出较低的 CCGP，然后在嵌入层中出现跳跃。这是因为在感觉运动训练期间，馈入嵌入层的重量会进行调整。这种峰值的含义是，这些模型中大多数有用的表征处理实际上并不发生在预训练语言模型本身中，而是发生在线性读出中，线性读出通过训练暴露在任务结构中。相比之下，我们表现最好的模型 SBERTNET 和 SBERTNET （L）使用语言表示，其中高 CCGP 分数逐渐出现在各自语言模型的中间层。由于语义表示已经具有这样的结构，因此泛化中涉及的大多数组合推理都可以发生在相对强大的语言处理层次结构中。因此，在最后一层语言模型中，表征(译注：可以进行DIKWP概念表征)已经组织得很好，嵌入层中的线性读数足以让感觉运动RNN正确地推断任务集的几何形状并很好地泛化。

该分析强烈表明，表现出泛化的模型通过利用结构化的语义表示来正确地将感觉运动空间中的实践任务和新任务联系起来，从而允许在看不见的环境中组合实践行为。

单独的单元调谐属性的语义调制

接下来，我们检查了感觉运动RNN中各个单元的调谐曲线。我们发现单个神经元被调整为各种与任务相关的变量。然而，至关重要的是，我们发现神经元的这种调整在任务组内是可预测的，并且以反映任务需求的方式由指令的语义内容调节。

例如，在“Go”系列任务中，单元 42 显示出方向选择性，在“Pro”和“Anti”任务之间π变化，反映了每种情况下任务需求的关系（图4a）。即使在训练期间坚持的 AntiGo 任务中，也可以观察到这种选择性的翻转。

图4 单独的单元调谐特性的语义调制

a为SBERTNET （L）感觉运动 RNN 单元的调谐曲线，该单元根据“Go”系列中的任务需求调谐。b为调谐曲线，用于“匹配”任务系列中的 SBERTNET （L）感觉运动 RNN 单元，根据两个刺激之间的角度差异绘制。c为针对不同相对刺激强度水平的特定模式“DM”和“AntiDM”任务的完整活动轨迹。d为不同相对刺激强度水平的“比较”任务系列中任务的完整活动跟踪。

对于“匹配”系列任务，单元 14 在“匹配”（DMS、DMC）和“不匹配”（DNMS、DNMC）条件之间调节活动。在“非匹配”试验中，该单元的活动随着两个刺激之间距离的增加而增加。相比之下，对于“匹配”任务，当两个刺激之间的相对距离很小时，这个神经元最活跃。因此，在这两种情况下，该神经元都会调节其活动以表示模型何时应该响应，从而改变选择性以反映“匹配”和“非匹配”试验之间的相反任务需求。即使对于被排除在训练之外的DMS也是如此。

图 4c 显示了不同对比度在特定模式版本的 DM 和 AntiDM 任务（AntiDMMod1 被排除在训练之外）中单元 3 活动的痕迹。在所有任务中，我们观察到斜坡活动，其中斜坡速率与对比强度有关。这种活动基序在以前的研究中已有报道。然而，在我们的模型中，我们观察到一个证据积累的神经元可以交换其整合的符号，以响应语言指令的变化，这使得模型能够满足任务的“赞成”和“反对”版本的相反需求，即使是以前看不见的任务。

有趣的是，我们还发现不成功的模型未能正确调节调谐偏好。例如，GPTNET （XL）未能沿“Pro”与“Anti”轴进行分解（图3b）并且在AntiDMMod1上的泛化较差，我们还发现神经元在保留设置中未能交换其整合符号。

最后，我们在“比较”系列任务中试验的活动时间过程中看到了类似的模式（图4d）。在 COMP1 任务中，如果网络的强度高于第二刺激，则网络必须沿第一刺激的方向做出响应，否则不得做出响应。在 COMP2 中，只有当第二刺激强度较高时，它才必须对第二刺激做出反应。对于“反”版本，刺激排序的要求是相同的，只是模型必须选择对比度最弱的刺激。即使增加了这种复杂性，我们发现单个神经元会根据任务需求调节它们的调整，即使是对于搁置的任务（在本例中为 COMP2）。例如，当网络应抑制响应时，单元 82 处于活动状态。对于“COMP1”，该单元具有负对比度，但在 COMP2 中翻转了这种灵敏度，并且在正对比度。重要的是，当目标是选择最弱的刺激时，这种关系是相反的。因此，尽管指令集中存在这些细微的句法差异，但语言嵌入可以以适合任务的方式反转该单元的调谐。

网络之间的语言通信

我们现在试图模拟人类在获得特定感觉运动技能后用语言描述特定感觉运动技能的互补能力。为此，我们反转了模型在训练期间学习的语言到感觉运动映射，以便它们可以仅根据感觉运动单元的状态提供任务的语言描述。首先，我们构建了一个输出通（production-RNN，图5 a-c），它被训练为将感觉运动-RNN状态映射到输入指令。然后，我们向网络提供一系列示例试验，同时保留特定任务的指令。在此阶段，所有模型权重都被冻结，模型接收电机反馈以更新嵌入层活动，以减少输出的误差（图 5b）。一旦嵌入层中的活动驱动感觉运动单元达到性能标准，我们就使用 production-RNN 来解码当前任务的语言描述(译注：可以进行DIKWP概念语义形式化)。最后，为了评估这些指令的质量，我们将它们输入到合作伙伴模型中，并衡量任务的绩效（图 5c）。本节中使用的所有指导和合作伙伴模型都是 SBERTNET（L）的实例。

一些AntiDMMod1任务（图5d）的示例解码指令。为了可视化任务集中的解码指令，我们绘制了一个混淆矩阵，其中感觉-运动RNN和生产-RNN都在所有任务上进行了训练（图5e）。请注意，许多解码指令完全是“新颖的”，即它们不包括在生产-RNN的训练集中。在所有任务中，新颖指令占解码指令的53%。

为了测试这些新指令的质量，我们评估了合作伙伴模型在第一个网络生成的指令上的性能（图5c），结果如图5f所示。当伙伴模型在所有任务上进行训练时，所有解码指令的性能在任务中平均为 93%。将指令传达给合作伙伴模型，将任务排除在训练之外，也带来了良好的性能（78%）。重要的是，即使是“新颖”的指令也能保持性能，在所有任务上训练的伙伴模型的平均性能为 88%，具有保留任务的伙伴模型的平均性能为 75%。鉴于指导模型和合作伙伴模型共享相同的体系结构，人们可能会期望放弃通信的语言组件，而简单地将一个模型推断的嵌入复制到合作伙伴模型的输入中会更有效。这导致平均只有 31% 的正确性能，在保留任务上测试合作伙伴模型时的性能为 28%。尽管指导网络和合作伙伴网络共享相同的架构和相同的能力，但它们仍然具有不同的突触权重。因此，使用针对一个智能体中的权重集进行调整的神经表示不一定会在另一个智能体中产生良好的性能。

图5 网络之间的通信

a为语言生产网络的自监督训练程序图示（蓝色）。红色虚线表示梯度流。b为在没有语言指令的情况下用于驱动任务表现的运动反馈的图示。c为用于评估从指导模型生成的指令质量的伙伴模型评估程序的说明。d为由反DMMod1任务的嵌入在b中推断的感觉运动活动引起的三个示例指令。e为使用b中描述的方法再次生成的指令的混淆矩阵。y 轴表示用于推断嵌入的输入-输出任务，x 轴表示由此产生的感觉运动活动产生的指令是否包含在自我监督训练期间使用的指令集中，或者是“新颖”的公式。f为伙伴模型在给定生成指令或嵌入向量的直接输入的不同训练制度中的性能。每个点表示合作伙伴模型在任务中的平均性能，这些任务使用来自解码器的指令，这些指令使用不同的随机初始化进行训练。圆点表示合作伙伴模型在所有任务上都经过训练，而菱形表示在保留任务上的表现。轴表示指令模型的训练制度。

我们还测试了一个使用感觉运动RNN的教学模型，该模型的任务被排除在训练之外。我们在这里强调，在训练过程中，生产-RNN 试图从网络以前从未经历过的任务指令引起的感觉运动隐藏状态中解码（图5a），而在测试期间，指令是由感觉运动状态产生的，这些状态完全是由于最小化运动误差而出现的（图5b和c）。尽管如此，我们发现，在这种情况下，在所有任务上训练的伙伴模型的正确率为 82%，而任务在训练之外的伙伴模型的正确率为 73%。在这里，77% 的生成指令是新颖的，因此当我们仅在新颖指令上测试相同的合作伙伴模型时，我们看到 1% 的下降非常小。如上所述，对于接受过所有任务训练的合作伙伴和完成任务的合作伙伴，上下文表示的正确率相对较低，分别为 30% 和 37%。

最后，我们测试了最极端的设置，其中感觉运动RNN和生产RNN的任务都被搁置了（图5f）。我们发现，对于在所有任务上训练的伙伴模型和在任务中执行任务的伙伴模型，生成的指令分别导致了 71% 和 63% 的性能。尽管这比我们之前的设置性能有所下降，但模型在这种双重保持设置中可以产生合理的指令这一事实令人震惊。该系统在任何程度上都取得了成功，这一事实说明了在丰富的、组合结构的语义表示的背景下进行训练所引入的强烈的归纳偏差。

讨论

在这项研究中，我们利用自然语言处理的最新进展来构建易于处理的模型，该模型具有解释指令以指导新环境中的行动的能力，以及在学习任务后生成任务描述的能力。RNN 可以使用预训练的语言转换器学习同时执行一组心理物理任务，以嵌入当前任务的自然语言指令。我们性能最好的模型可以利用这些嵌入来执行一个全新的模型，平均性能正确率为 83%。概括性能的指令模型通过利用指令嵌入和任务表示的共享组合结构来实现这一点，因此，对练习指令和新指令之间关系的推断可以很好地推断出看不见的任务需要什么样的感觉运动转换。最后，我们展示了一个网络可以反转这些信息，并仅根据它观察到的感觉运动偶然性为任务提供语言描述。

我们的模型对整合语言信息的大脑区域的神经表征进行了一些预测，以便对感觉运动区域施加控制。首先，CCGP对模型层次结构的分析表明，当人类必须根据指令在一组相关任务之间泛化（或切换）时，在感觉运动映射中观察到的神经几何形状也应该存在于指令的语义表示中。这一预测在现有的实验文献中得到了很好的支持，其中多项研究已经观察到我们在感觉运动RNN中发现的抽象结构类型也存在于生物大脑的感觉运动区域。我们的模型理论认为，在语言领域中出现与任务相关的等效结构对于人类的指令行为至关重要。对于可能支持这种表征的区域，一个有趣的候选者是左额下回的语言选择性亚区域。该区域对句子理解的词汇语义和句法方面都很敏感，与需要语义控制的任务有关，并且在解剖学上与左额下回的另一个功能亚区相邻，这与灵活认知有关。我们还预测，参与实现感觉运动映射的各个单元应该根据输入指令的语义逐次试验调节其调谐特性，并且未能以预期的方式调节调谐会导致泛化不良。这种预测对于解释人类的多单位记录可能特别有用。最后，鉴于在任务集的感觉运动需求中奠定语言知识的基础，可以提高跨模型的性能（图2e），我们预测，在学习过程中，语言处理层次结构的最高层次也应该由伴随语言输入的具身过程来塑造，例如，运动计划或负担能力评估。

我们研究的一个值得注意的负面结果是GPTNET（XL）的泛化性能相对较差，它使用的参数至少比其他模型多一个数量级。鉴于这些模型中的活动可以预测人类语言处理的许多行为和神经特征，这一点尤其引人注目。鉴于此，未来的成像研究可能会以自回归模型和我们表现最好的模型中的表征为指导，以描绘每个教学阶段所涉及的大脑区域的完整梯度，从低级的下一个单词预测到高级结构化的句子表征，再到语言通知的感觉运动控制。

我们的模型可能会指导未来的工作，比较非语言主题（如非人灵长类动物）的组成表征。人类和非人灵长类动物之间的任务切换（没有语言指令）的比较表明，两者都使用抽象的规则表示，尽管人类可以更快地进行切换。在我们的分析中，一个有趣的相似之处是使用组合规则向量。即使在非语言 SIMPLENET 的情况下，使用这些向量也能促进泛化。然而，重要的是，对于我们表现最好的指令模型来说，这种组合性要强得多。这表明语言赋予智能体更灵活的任务子组件组织，这些子组件可以在更广泛的上下文中重新组合。

我们的研究结果也凸显了语言交流的优势。网络可以压缩他们通过运动反馈经验获得的信息，并通过自然语言将这些知识传输到合作伙伴网络。虽然在我们的例子中是初级的(译注：应考虑DIKWP语义白盒测评布局)，但在一段时间的练习后，内生地描述如何完成任务的能力是人类语言技能的标志。通过共享潜在表征来传递性能的失败表明，要在一组独立的神经元网络中传达信息，它需要通过一个表征介质，该介质可以被该组的所有成员平等地解释。在人类和我们表现最好的指导模型中，这种媒介是语言(译注：应考虑DIKWP形式化语义模型进行更准确的人机交互构建)。

强化学习中的一系列工作已经研究了使用语言和类似语言的方案来帮助智能体表现。代理通过对动作序列的分步描述来接收语言信息。或通过以语言目标为条件的学习策略。这些研究通常偏离自然语言，并接收被解析或直接引用环境对象的语言输入。我们用于嵌入指令的预训练语言模型的一些较大版本也会显示遵循行为的指令，即 GPT-3、PALM， LaMDA和使用语言和DALL-E8模态的InstructGPT48，以及使用语言到图像模态的Stable Diffusion14。这些模型中显示的语义和句法理解令人印象深刻。然而，这些模型的输出很难从指导下游行动计划的动态的角度来解释。最后，最近的工作试图设计可以在复杂甚至现实世界环境中发挥作用的指令跟踪代理。虽然这些模型表现出令人印象深刻的行为库，但它们依赖于融合语言和视觉信息的感知系统，这使得它们难以与人脑中的语言表征进行比较，人脑中的语言表征来自一组专门用于处理语言的区域。总而言之，这些模型都没有提供可测试的表征性说明，说明如何使用语言来诱导大脑中感觉运动映射的泛化。

相比之下，我们的模型对支持组合泛化所需的群体和单单元神经表征进行了易于处理的预测，并且可以指导未来的实验工作，研究人类语言和感觉运动技能的相互作用。通过开发可解释的模型，既可以将指令理解为指导特定的感觉运动反应，又可以将感觉运动学习的结果作为可理解的语言指令进行交流，我们已经开始解释语言在神经元网络中编码和传递知识的力量。

在线内容

任何方法、额外参考文献、Nature Portfolio 报告摘要、来源数据、扩展数据、补充信息、致谢、同行评审信息；作者贡献和竞争利益的详细信息；以及数据和代码可用性声明都可在 https://doi.org/10.1038/s41593-024-01607-5 获取。

参考文献：

1. Cole, M. W. et al. Multi-task connectivity reveals flexible hubs for adaptive task control. Nature Neurosci. 16, 1348–1355 (2013).

2. Miller, E. K. & Cohen, J. D. An integrative theory of prefrontal cortex function. Annu. Rev. Neurosci. 24, 167–202 (2001).

3. Bernardi, S. et al. The geometry of abstraction in the hippocampus and prefrontal cortex. Cell 183, 954–967 (2020).

4. Minxha, J., Adolphs, R., Fusi, S., Mamelak, A. N. & Rutishauser, U. Flexible recruitment of memory-based choice representations by the human medial frontal cortex. Science 368, eaba3313 (2020).

5. Takuya, I. et al. Compositional generalization through abstract representations in human and artificial neural networks. In Proc. 36th Conference on Neural Information Processing Systems

(eds Koyejo, S. et al.) 32225–32239 (Curran Associates, Inc., 2022).

6. Driscoll, L., Shenoy, K. & Sussillo, D. Flexible multitask computation in recurrent networks utilizes shared dynamical motifs. Preprint at bioRxiv https://doi.org/10.1101/2022.08.15.503870 (2022).

7. Brown, Tom, et al. Language models are few-shot learners. In Proc. 34th International Conference on Neural Information Processing Systems 1877–1901 (Curran Associates Inc., 2020).

8. Ramesh, A. et al. Zero-shot text-to-image generation. In Proc. 38th International Conference on Machine Learning (eds Marina, M. & Tong, Z.) 8821–8831 (PMLR, 2021).

9. Radford, A. et al. Language models are unsupervised multitask learners. OpenAI 1, 9 (2019).

10. Schrimpf, M. et al. The neural architecture of language: integrative modeling converges on predictive processing. Proc. Natl Acad. Sci. USA https://doi.org/10.1073/pnas.2105646118 (2021).

11. Goldstein, A. et al. Shared computational principles for language processing in humans and deep language models. Nature Neurosci. 25, 369–380 (2022).

12. Chowdhery, A. et al. Palm: scaling language modeling with pathways. J. Mach. Learn. Res. 24, 11324–11436 (2023).

13. Thoppilan, R. et al. Lamda: language models for dialog applications. Preprint at https://arxiv.org/abs/2201.08239 (2022).

14. Rombach, R. et al. High-resolution image synthesis with latent difusion models. In Proc. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 10674–10685 (IEEE, 2022).

15. Zitkovich, B. et al. Rt-2: vision-language-action models transfer web knowledge to robotic control. In Proc. 7th Conference on Robot Learning (eds Tan, J. et al.) 2165-2183 (PMLR, 2023).

16. Abramson, J. et al. Imitating interactive intelligence. Preprint at

https://arxiv.org/abs/2012.05672 (2021).

17. DeepMind Interactive Agents Team. Creating multimodal interactive agents with imitation and self-supervised learning. Preprint at https://arxiv.org/abs/2112.03763 (2022).

18. Yang, G. R., Joglekar, M. R., Song, H. F., Newsome, W. T. & Wang, X.-J. Task representations in neural networks trained to perform many cognitive tasks. Nat. Neurosci. 22, 297–306 (2019).

19. Vaswani, A. et al. Attention is all you need. In Proc. 31st International Conference on Neural Information Processing Systems 6000–6010 (Curran Associates Inc., 2017).

20. Devlin, J., Chang, M., Lee, K. & Toutanova, K. BERT: pre-training of deep bidirectional transformers for language understanding. Preprint at http://arxiv.org/abs/1810.04805 (2018).

21. Reimers, N. & Gurevych, I. Sentence-bert: Sentence embeddings using siamese bert-networks. Preprint at https://arxiv.org/abs/1908.10084 (2019).

22. Bowman, S. R., Angeli, G., Potts, C. & Manning, C. D. A large annotated corpus for learning natural language inference. Preprint at http://arxiv.org/abs/1508.05326 (2015).

23. Radford, A. et al. "Learning transferable visual models from natural language supervision. In Proc. 38th International Conference on Machine Learning (eds Marina, M. & Tong, Z.)

8748–8763 (PMLR, 2021).

24. Goel, V., Gold, B., Kapur, S. & Houle, S. Neuroanatomical correlates of human reasoning. J. Cogn. Neurosci. 10, 293–302 (1998).

25. Goel, V., Buchel, C., Frith, C. & Dolan, R. J. Dissociation of mechanisms underlying syllogistic reasoning. Neuroimage 12, 504–514 (2000).

26. Reverberi, C. et al. Neural basis of generation of conclusions in elementary deduction. Neuroimage 38, 752–762 (2007).

27. Noveck, I. A., Goel, V. & Smith, K. W. The neural basis of conditional reasoning with arbitrary content. Cortex 40, 613–622.（2004).

28. Monti, M. M., Osherson, D. N., Martinez, M. J. & Parsons, L. M. Functional neuroanatomy of deductive inference: a language-independent distributed network. Neuroimage 37, 1005–1016 (2007).

29. Monti, M. M., Parsons, L. M. & Osherson, D. N. The boundaries of language and thought in deductive inference. Proc. Natl Acad. Sci. USA 106, 12554–12559 (2009).

30. Coetzee, J. P. & Monti, M. M. At the core of reasoning: dissociating deductive and non-deductive load. Hum. Brain Mapp. 39, 1850–1861 (2018).

31. Monti, M. M. & Osherson, D. N. Logic, language and the brain. Brain Res. 1428, 33–42 (2012).

32. Prado, J. The relationship between deductive reasoning and the syntax of language in broca’s area: a review of the neuroimaging literature. L’année Psychol. 118, 289–315 (2018).

33. Ito, T., Yang, G. R., Laurent, P., Schultz, D. H. & Cole, M. W. Constructing neural network models from brain data reveals representational transformations linked to adaptive behavior.

Nat. Commun. 13, 673 (2022).

34. Shadlen, M. N. & Newsome, W. T. Neural basis of a perceptual decision in the parietal cortex (area lip) of the rhesus monkey. J. Neurophysiol. 86, 1916–1936 (2001).

35. Huk, A. C. & Shadlen, M. N. Neural activity in macaque parietal cortex reflects temporal integration of visual motion signals during perceptual decision making. J. Neurosci. 25, 10420–10436 (2005).

36. Panichello, M. F. & Buschman, T. J. Shared mechanisms underlie the control of working memory and attention. Nature 592, 601–605 (2021).

37. Nieh, E. H. et al. Geometry of abstract learned knowledge in the hippocampus. Nature 595, 80–84 (2021).

38. Fedorenko, E. & Blank, I. A. Broca’s area is not a natural kind. Trends Cogn. Sci. 24, 270–284 (2020).

39. Fedorenko, E., Duncan, J. & Kanwisher, N. Language-selective and domain-general regions lie side by side within broca’s area. Curr. Biol. 22, 2059–2062 (2012).

40. Gao, Z. et al. Distinct and common neural coding of semantic and non-semantic control demands. NeuroImage 236, 118230 (2021).

41. Duncan, J. The multiple-demand (MD) system of the primate brain: mental programs for intelligent behaviour. Trends Cogn. Sci. 14, 172–179 (2010).

42. Buccino, G., Colagé, I., Gobbi, N. & Bonaccorso, G. Grounding meaning in experience: a broad perspective on embodied language. Neurosci. Biobehav. Rev. 69, 69–78 (2016).

43. Mansouri, F. A., Freedman, D. J. & Buckley, M. J. Emergence of abstract rules in the primate brain. Nat. Rev. Neurosci. 21, 595–610 (2020).

44. Oh, J. Singh, S., Lee, H. & Kohli, P. Zero-shot task generalization with multi-task deep reinforcement learning. In Proc. 34th International Conference on Machine Learning 2661–2670 (JMLR.org, 2017).

45. Chaplot, D. S., Mysore Sathyendra, K., Pasumarthi, R. K., Rajagopal, D., & Salakhutdinov, R. Gated-attention architectures for task-oriented language grounding. In Proc. 32nd AAAI

Conference on Artificial Intelligence Vol. 32 (AAAI Press, 2018).

46. Sharma, P., Torralba, A. & Andreas, J. Skill induction and planning with latent language. Preprint at https://arxiv.org/abs/2110.01517(2021).

47. Jiang, Y., Gu, S., Murphy, K. & Finn, C. Language as an abstraction for hierarchical deep reinforcement learning. In Proc. 33rd International Conference on Neural Information Processing Systems 9419–943132 (Curran Associates Inc., 2019).

48. Ouyang, L. et al. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems 27730–27744 (Curran Associates, Inc., 2022).

翻译：DIKWP团队郭元权、王玉星、段玉聪

意图驱动的数据、信息、知识、智慧融合发明创造方法：DIKWP-TRIZ

段玉聪教授

l DIKWP-AC人工意识（全球）团队发起人

l AGI-AIGC-GPT评测DIKWP（全球）实验室创办者

l 世界人工意识大会发起人（Artificial Consciousness 2023, AC2023, AC2024)

l 国际数据、信息、知识、智慧大会发起人（IEEE DIKW 2021、2022、2023）

l 斯坦福全球顶尖科学家“终身科学影响力排行榜”（海南信息技术）唯一入选

l 海南人工智能技术发明领域唯一全国奖（吴文俊人工智能奖）获得者

l 中国创新方法大赛总决赛（海南代表队）最好记录保持者

l 海南省发明专利（信息技术领域）授权量最多者

l 全国企业创新增效大赛海南最好成绩保持者

l 全国人工智能应用场景创新挑战赛总决赛海南最好成绩保持者

l 海南唯一入选“首届科技期刊高质量发展大会100篇”

l 海南省最美科技工作者（并入选全国候选人）

l 首届中国“AI+”创新创业大赛最佳创意奖

转载本文请联系原作者获取授权，同时请注明本文来自段玉聪科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3429562-1427401.html

上一篇：段玉聪：DIKWP模型理论超越”信息压缩“：重塑人工智能的本质理解
下一篇：DIKWP团队第87件授权发明专利：基于DIKW的内容完整性建模与判断方法

收藏 IP: 140.240.43.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

段玉聪

扫一扫，分享此博文

YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

描述与执行的语义空间统一：全球首次人工智能系统语义通信(第2届世界人工意识大会热身-媒体与顶刊速递系列)

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

段玉聪

全部作者的其他最新博文

全部精选博文导读

YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

描述与执行的语义空间统一：全球首次人工智能系统语义通信(第2届世界人工意识大会热身-媒体与顶刊速递系列)

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

段玉聪

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)