广义智能的数学定义与 DIKWP 层次模型形式化
段玉聪
人工智能DIKWP测评国际标准委员会-主任
世界人工意识大会-主席
世界人工意识协会-理事长
(联系邮箱:duanyucong@hotmail.com)
摘要:广义智能可以被视为一个从数据 (Data) 到信息 (Information)、再到知识 (Knowledge)、智慧 (Wisdom),最终为了某种意图/目的 (Purpose) 的逐级映射与优化过程。我们结合信息论、计算理论和最优控制理论,对 DIKWP 模型的各层次进行数学形式化描述,并推导智能的数学表示。首先,我们分别形式化定义数据、信息、知识、智慧和目的层次的含义,然后基于这些定义构建一个全面的智能数学模型。该模型体现为一个由输入到输出的复合函数,描述智能体如何利用数据获取信息、累积知识、运用智慧决策来实现预设的目的。最后,我们给出广义智能的一个数学度量,展示智能如何在各种环境中最大化目标达成度。
数据 (Data) 的形式化定义
概念:数据是原始的、未经处理的观测值或事实集合,没有经过解释或赋予意义前本身不具备明确含义 ((PDF) 什么是人工智能(AI)?基于DIKWP的GPT-4回答-AGI-AIGC-GPT测评实验室报告系列报告)。在数学上,可将“数据”表示为一个集合或随机变量,用于描述环境中收集的原始信号或符号。
数据集合表示:用 $D$ 表示数据集合,例如 $D = {d_1, d_2, \dots, d_n}$,其中每个元素 $d_i$ 是一次观测或测量值 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。在连续情况下,可以将数据表示为随机变量 $X$ 取值的样本集。
概率分布:假设数据来源于某个概率空间 $(\Omega, \mathcal{F}, P)$,观测数据 $X$ 服从分布 $P_X(x)$。数据的不确定性和信息含量可用信息论熵来度量。香农熵定义为:
H(X)=−∑x∈XPX(x)logPX(x)H(X) = - \sum_{x \in \mathcal{X}} P_X(x)\log P_X(x)
表示随机数据 $X$ 的平均信息量 (熵 (信息论) - 维基百科,自由的百科全书)(熵越大,不确定性越高,数据越“杂乱”)。对单个数据点$x$,其自信息量为 $I(x) = -\log P_X(x)$,表示观测到 $x$ 带来的信息量大小。
数据的形式化:在DIKWP模型中,数据层对应从环境或源获取的原始输入。可定义一个函数或通道 $\mathcal{F}_D: S \to D$ 表示从环境状态/信号空间 $S$ 获取数据的过程 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。例如,$S$ 可以表示环境的真实状态或信号源,$\mathcal{F}_D(s)$ 产生观测数据 $d \in D$。在人工智能系统中,数据往往以传感器读数、文本字符串、图像像素等形式出现,是后续信息处理的原材料。
数学解释:数据本身可以看作没有经过解释的符号串或数值。计算理论中,数据常以比特串形式表示,长度记作 $|d|$。如果数据包含模式,其可压缩性体现了其中隐含的信息结构。极端情况下,完全随机的数据不可压缩,其Kolmogorov复杂度接近数据长度;有结构的数据可被压缩,复杂度远小于数据长度,这为进一步的信息提取提供了可能性。
信息 (Information) 的形式化定义
概念:信息是对数据进行处理、组织和解释后得到的结果,比原始数据更有意义 ((PDF) 什么是人工智能(AI)?基于DIKWP的GPT-4回答-AGI-AIGC-GPT测评实验室报告系列报告)。从数据到信息的转化意味着去除噪声、提取结构和模式,使我们对数据有更好的理解。信息通常体现为对数据的分类、特征提取或符号表示。
映射函数:形式化地,定义一个信息提取函数 $f_I: D \to C$,将数据映射到某个概念或类别空间 $C$ ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。例如,$C$ 可以是一组离散的类别标签、特征向量空间或语义符号集合。对于给定数据$d\in D$,$i = f_I(d) \in C$ 表示对$d$的解释或分类结果。这个函数实现了对数据的分类和区分,是数据到信息的转换过程。
信息度量:信息论中,互信息是刻画数据与解释之间信息量的工具。如果环境中存在某些隐藏变量或真相(例如真实类别$Y$),信息提取的效果可用互信息 $I(Y; I) = H(Y) - H(Y \mid I)$ 来衡量:这表示通过观察信息$I$(由数据产生的解释)后,对隐藏变量$Y$的不确定性减少了多少。一个好的信息提取过程应当最大化互信息,即提取的数据特征尽可能保留关于原始现象的相关信息。
信息的语义结构:在计算理论中,信息对应于数据的结构化表示。可用关系或格来表示信息之间的组织。例如,不同数据点经过$f_I$后可能映射成相同类别(表示它们在某种语义上相同),也可能映射成不同类别(表示彼此有区分的特征)。这些类别或符号形成一个信息空间,在其中可以定义partial order(偏序)或其它结构,表示概念的泛化-具体化关系。处理信息的一种数学工具是格论 (Lattice Theory) ((PDF) 什么是人工智能(AI)?基于DIKWP的GPT-4回答-AGI-AIGC-GPT ...)(例如概念格表示概念之间的层次关系)。
信息过滤和压缩:信息提取的目标之一是压缩原始数据,同时保留有用内容。这可通过编码理论刻画:$f_I$ 实现了一个编码,将原数据$d$映射成符号$i$。若$|i| \ll |d|$(符号所需编码长度远小于原数据长度),则表示数据得到了压缩,去除了冗余和噪声。这种压缩往往基于对数据统计特性的利用(如重复模式、相关性),等价于去除了数据中的熵。以香农第一基本定理为依据,有效的编码能逼近数据的熵极限,实现无损压缩。
数学解释:在统计学习中,从数据提取信息常等价于估计参数或识别状态的问题。例如,给定观测数据以及假设的数据生成模型族${P_\theta}$,信息提取可以包含似然估计:计算 $p(d \mid \theta)$ 或后验概率 $p(\theta \mid d)$。贝叶斯公式给出从数据更新信息/知识的规则:
p(θ∣d)=p(d∣θ) p(θ)p(d),p(\theta \mid d) = \frac{p(d \mid \theta) \, p(\theta)}{p(d)},
其中先验$p(\theta)$携带先验知识,似然$p(d\mid\theta)$反映数据提供的新信息 (A Gentle Introduction to Bayesian Analysis - PubMed Central)。信息提取往往是知识获取的第一步,涉及对原始数据进行滤波、统计汇总或特征变换,使后续阶段易于处理。
知识 (Knowledge) 的形式化定义
概念:知识是对信息的整合以及通过理解其含义和上下文所获得的更高层次认知 ((PDF) 什么是人工智能(AI)?基于DIKWP的GPT-4回答-AGI-AIGC-GPT测评实验室报告系列报告)。知识比信息更进一步,包含概念之间的关系、模式、规律,以及由经验或学习得到的模型。知识的获取通常涉及归纳和推理:从多条信息中总结一般规律,并能用于解释和预言新的情形。
映射函数:形式化地,定义知识形成函数 $f_K: C \to P$,将信息层的概念/类别转化为更抽象的模式或规则集合 $P$ ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。这里$P$可以理解为知识表示空间,其中的元素是对世界更全面的理解,例如逻辑命题集合、因果模型、统计参数、机器学习模型参数等。对于从信息层获取的各类概念,$f_K$ 提炼出它们背后的规律模式。例如,多条关于物体掉落的数据(信息)可以归纳出重力定律(知识);大量标注数据可以训练出分类器的参数(知识);观测时间序列可以拟合出动力学方程(知识)。
知识的表示:在数学上,知识常用模型来表示。比如,用函数集合 $\mathcal{M}$ 表示可能的模型空间,知识可以视为从信息数据得到的最优模型 $\hat{m} \in \mathcal{M}$。获取知识可形式化为优化问题:给定信息数据集$I$,找到参数/模型 $m$ 使得某种损失函数最小或者似然最大,例如:
m^=argmaxm∈MPr(I∣m)⋅Pr(m),\hat{m} = \arg\max_{m \in \mathcal{M}} \Pr(I \mid m) \cdot \Pr(m),
这对应于贝叶斯学习(选择后验概率最大的模型),或者等价地$\hat{m} = \arg\min_{m} L(m; I)$,其中$L$是定义在信息数据上的损失(如均方误差、对数损失等)。
知识的度量:知识的好坏可以通过信息论和计算复杂度来度量。一方面,知识应当解释数据:好的知识使得数据在已知模型下变得更有规律性,条件熵降低。例如,有了知识$K$后,数据的不确定性降为 $H(D \mid K)$;理想情况下,$H(D \mid K)$大大低于原始熵$H(D)$,知识对数据具有高互信息 $I(K; D) = H(D) - H(D \mid K)$。另一方面,知识应当简洁地刻画规律:这可通过Kolmogorov复杂度定义。Kolmogorov复杂度 $K(d)$ 表示生成数据$d$所需的最短描述(程序或算法)的长度 (Kolmogorov complexity - Wikipedia)。如果一组数据$d$包含模式,其复杂度将小于数据本身长度。知识可被看作是数据的“压缩描述”:例如,知识$k$(如物理定律或模型公式)的长度加上用该知识描述例外数据的长度,远小于直接记忆所有数据所需长度。这体现最小描述长度(MDL)原理:最优知识是能够最大程度压缩数据的模型。
示例:若数据$D$由某未知规律产生,而知识获取的目标是找到该规律。假设存在一个模型$M$能以较小的Kolmogorov复杂度描述$D$,即 $K(D) \approx K(M) + K(D\mid M)$ 且 $K(D\mid M)$很小,则$M$就是对$D$的知识。知识的获取可以视为寻找使$K(D\mid M)$最小的$M$,即最大化数据可压缩性的模型 (Kolmogorov complexity - Wikipedia)。
知识与逻辑/网络:知识也可以以逻辑规则或知识图谱形式表示,允许进行推理。在形式逻辑中,知识可定义为一组公理$K = {\phi_1, \phi_2, ...}$,能推出关于环境的真假命题。在概率图模型中,知识可表示为节点和边(随机变量及其依赖关系)构成的网络,其捕捉变量间的因果或相关结构。例如,马尔可夫决策过程(MDP)中的转移概率$P(s'|s,a)$和奖赏函数$R(s,a)$可以视为智能体对环境的知识。总之,知识提供了模型或世界内部表示,为决策奠定基础。
数学解释:康纳特-阿什比定理(良好调节器定理)指出:“任何一个有效的调节器都必须包含被调节系统的模型” (Good regulator theorem - Wikipedia)。这说明了知识在智能决策中的必要性:若希望智能体有效控制环境达到目标,它必须拥有关于环境动态或结构的内部知识表示。知识获取实际上是一个学习过程,可用计算学习理论的框架刻画,例如PAC学习要求在多大样本下学习得到的概念近似正确。知识也是知识库在计算机中的存储和表示问题,可借助如一阶逻辑(知识作为公理集合)或者embedding向量(知识作为分布式表示)等形式。
智慧 (Wisdom) 的形式化定义
概念:智慧是在知识的基础上进一步发展所得,包括对知识的深刻理解、融入了原则、价值和长远影响的考量,用以指导行动决策 ((PDF) 什么是人工智能(AI)?基于DIKWP的GPT-4回答-AGI-AIGC-GPT测评实验室报告系列报告) ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。智慧层涉及将知识付诸实践,并在决策时结合道德伦理等更高层因素,做出平衡和最优的选择。简单来说,智慧回答“在已知如何做的基础上,是否以及如何去做”。
映射函数:形式化地,可定义智慧决策函数 $f_W: P \times E \to A$ ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。这里$P$是知识(模式/规则)的集合,$E$是考虑的伦理道德约束等因素的集合 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》),$A$表示决策或行动的集合。函数$f_W(p, e)$输出一个智慧层的决策结果 $a \in A$,它基于知识$p$并结合价值约束$e$来指导具体行动选择。直观上,$f_W$ 扮演“决策单元”的角色:给定对世界的理解以及价值观/目标权衡,产出某种行动方案或建议。由于智慧常常涉及复杂权衡,$f_W$ 可能是多输入多输出且高度非线性的。
最优决策原则:智慧可被视为一种优化过程,即在知识提供的模型$P$下,选择能够最好实现目的且符合理想的行动$A$。这对应于最优控制或决策理论中的策略优化问题。若我们以 效用函数或价值函数 $U(a \mid p, e)$ 来评估给定知识和伦理约束下某行动$a$的综合价值,那么智慧追求选择最大化价值的动作:
a∗=argmaxa∈AU(a∣p,e).a^* = \arg\max_{a \in A} U(a \mid p, e).
这里$U$ 可以综合考虑短期奖励、长期利益以及规范约束等。例如,可以设$U = R(a)$是直接收益,但添加惩罚项$\Omega(a; e)$表示违反伦理$e$的代价,那么智慧寻找的是最大化 $R(a) - \lambda \Omega(a;e)$ 的行为。其中$\lambda$权衡收益和道德规范。价值权衡正是智慧决策的核心 ((PDF) 什么是人工智能(AI)?基于DIKWP的GPT-4回答-AGI-AIGC-GPT ...):它在多个目标之间(功利 vs. 道德、短期 vs. 长期)做出平衡。
动态决策与控制:在更一般的动态环境中,智慧体现在策略(policy)的制定,即不仅当前一步最优,而且能顾及未来影响。设环境状态$s$,智慧要求找到最优策略$\pi: S \to A$。这可用Bellman最优方程刻画:若$V(s)$是状态$s$在最优策略下可得到的最大预期价值,那么
V(s)=maxa∈A{R(s,a)+γ∑s′P(s′∣s,a) V(s′)},V(s) = \max_{a \in A} \Big\{ R(s,a) + \gamma \sum_{s'} P(s' \mid s,a)\, V(s') \Big\},
其中$R(s,a)$是立即奖赏,$\gamma$是折扣因子,$P(s'|s,a)$由知识提供(环境模型),求解该方程可得最优决策$\pi^*(s)$ (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park)。智慧意味着代理在决策时能够前瞻性地看待未来多步影响,并应用知识进行推理,近似求解上述最优条件。实际中,智慧还体现为在不确定环境下的稳健决策和对未知的探索,这些可通过概率控制、信息论决策等方式数学描述(例如最大化策略的预期自由能或信息增益以平衡探索-利用)。
伦理与约束:智慧特有的一点是引入了$E$(Ethics)集合,用以表示规则、伦理或偏好限制 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。数学上,这可表现为约束优化:
maxa∈A U(a)s.t. a∈A(e),\max_{a \in A} \; U(a) \quad \text{s.t. } a \in \mathcal{A}(e),
其中$\mathcal{A}(e)$表示所有不违反伦理约束$e$的可行行动集合。如果将伦理视为额外状态或惩罚信号,可以内化到$U$中,如上所述加入惩罚项。约束最优控制理论提供了工具来求解这类问题(例如拉格朗日乘子法、动态规划中的惩罚函数)。
数学解释:智慧是智能体决策能力的顶点,核心是将知识付诸行动并考虑行动的价值。控制论视角下,智慧对应控制器(controller)的实现。一个有智慧的控制器并非简单硬编码规则,而是能够根据内在模型和目标动态地产生策略。信息论也提供了理解智慧的另一个视角:有智慧的决策往往高效利用信息。例如,“赋权”(Empowerment)概念用信息容量定义了一种智慧:智能体选择能增大未来状态信息熵的动作,即保留更多未来选择余地的动作。再如,智慧体现在决策时会获取有价值的信息(探索),可形式化为最大化信息增益$I(\text{model}; \text{outcome})$的动作选择策略,这将长期提升知识水平和决策质量。
目的 (Purpose) 的形式化定义
概念:目的是在智能过程中追求的目标或意图 ((PDF) 什么是人工智能(AI)?基于DIKWP的GPT-4回答-AGI-AIGC-GPT测评实验室报告系列报告)。在DIKWP框架中,目的处于最高层,驱动着数据收集、信息加工、知识获取和智慧应用各个过程 ((PDF) 什么是人工智能(AI)?基于DIKWP的GPT-4回答-AGI-AIGC-GPT测评实验室报告系列报告)。形式上,目的定义了智能体希望实现的状态、输出或效用,它为整个系统提供评价标准和方向。
目标函数:数学上,目的可用一个目标函数来表示,例如$O$或$T$表示目标描述,$J$表示需要优化的性能指标。DIKWP模型中给出了目的的形式:意图/目的函数 $f_P: (D \times I \times K \times W) \times O \to T$ ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。这表示目的模块以DIKW各层的内容和预设目标$O$为输入,输出最终实现的结果$T$(目标达成的状态)。通俗地说,智能体根据它从数据、信息、知识、智慧各层所具有的内容,再结合预设的目标,调整自身以实现目标$T$。
优化问题:目的给智能过程带来了一个优化问题。令$z$表示智能体可以调整的参数(包括决策、策略等),$U(z; O)$表示在目标$O$下评估$z$的效用,则智能体的总体目标是
z∗=argmaxz U(z;O).z^* = \arg\max_{z} \; U(z; O).
例如,在强化学习中,目标$O$可以体现在奖赏函数$R$上,智能过程试图找到策略$\pi$使预期累计奖赏最大:$ \pi^* = \arg\max_{\pi} \mathbb{E}[\sum_{t=0}^T \gamma^t R(s_t, a_t) \mid \pi]$。在监督学习中,目标$O$体现为一个损失函数$L(\hat{y}, y)$,智能过程通过调整模型参数$\theta$最小化损失:$\theta^* = \arg\min_{\theta} \frac{1}{N}\sum_{i}L(f_\theta(x_i), y_i)$。
适应与反馈:$f_P$ 函数体现了一个学习—适应的过程 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。智能体会根据当前距离目标$O$的差距,不断调整DIKW各层(例如获取更多数据、修正知识模型、改变策略等),以使输出$T$逐渐逼近目标。这个过程在控制论中对应于反馈控制回路:目标$O$提供参考信号,智能体输出$T$,比较两者差异(误差),通过内部调节使误差减小趋零。Mathematically,可描述为微分方程或差分方程的稳定问题:智能体设计一个控制律,使得$e(t) = T(t) - O \to 0$ 当 $t \to \infty$。Lyapunov稳定性理论提供了分析这种目标收敛的手段。
目的层的形式化:DIKWP模型给出目的层的输入包括整个DIKW序列和预设目标$O$ ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。这意味着智能体在执行过程中统筹考虑感知到的数据、提取出的信息、归纳的知识、做出的决策,并根据目标要求调整这些要素,从而最终达到目标状态$T$。可以将$f_P$视为一个高层策略函数或学习算法,其作用是元学习(meta-learning)——在更长时间尺度上,根据目标和经验优化智能体自身的策略和知识库。例如,人类为了达到长期目标,会反思并学习新的知识或调整价值观;机器智能可以在任务过程中调整模型参数(元优化)以更好地完成任务。
数学解释:目的使智能具有方向性。在优化控制中,经常设定一个标量性能指标(performance index) $J$,智能体的行为就是为了优化$J$。例如,在LQR最优控制,$J = \int (x^T Q x + u^T R u) dt$,智能体通过解黎卡提方程找到使$J$最小的控制律$u(x)$。在信息论中,目的也可视为一种约束下的极值问题,如在通信中最大化传输速率但功率受限。在智能定义中,一个通用的目标可能是生存、效率或其他抽象指标。目的层确保智能体不是被动地处理信息,而是主动地收集和行动以实现目标。
智能的综合数学模型
根据上述各层次定义,我们可以将广义智能形式化为一个从输入到输出的复合映射,并给出智能程度的度量。智能体在与环境交互以实现目标的过程中,经历了数据获取、信息提取、知识形成、智慧决策和目标导向调整五个阶段。这五个阶段共同构成了智能的数学结构。
智能系统结构:将DIKWP各层看作子系统,整个智能系统可以表示为序列五元组:
AI={D,I,K,W,P},\text{AI} = \{D, I, K, W, P\},
其中各元素及其关联映射定义如下 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》):
整体上,智能体可以抽象为复合函数的映射:
T=fP(fW(fK(fI(d)), e), O),T = f_P\Big(f_W\big(f_K(f_I(d)),\, e\big),\; O\Big),
其中嵌套的$f_I, f_K, f_W$依次实现感知到行动的转换,$f_P$作为高层调整使$T$逼近目标$O$。如果明确环境状态和演化,可以把整个智能闭环描述为:状态$s$经过感知和推理生成动作$a$,作用于环境得到新状态$s'$,如此反复,直到满足目标判据($T = O$)。上述结构与经典智能体模型一致:感知-决策-行动环。
数据获取: $d = \mathcal{F}_D(s)$从环境或输入源$S$中获取原始数据$d \in D$ ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。
信息处理: $i = f_I(d)$,将数据$d$映射为信息/概念$i \in C$,提取出了有用特征或类别 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。
知识形成: $p = f_K(i)$,将信息综合为知识$p \in P$,即形成关于环境的模式或模型 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。
智慧决策: $a = f_W(p, e)$,基于知识$p$并考虑伦理约束$e \in E$,产生行动决策$a \in A$ ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。
目的驱动: $T = f_P(D, I, K, W; O)$,综合考虑当前的数据、信息、知识、决策以及预设目标$O$,通过学习与调整使输出结果$T$接近目标 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》)。
智能的数学度量:广义智能需在广泛环境下实现目标的能力 (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park)。Legg 和 Hutter 提出了通用智能的一个数学定义,用于度量一个策略在各种环境中达成目标的能力 (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park)。简化描述如下:
设 $\mu$ 表示一个环境(可看作定义了状态转移和奖赏的概率分布),$\pi$ 表示智能体(策略),$V^\pi_\mu$ 表示智能体在环境$\mu$中的累积绩效(例如总奖励或目标达成度的期望值)。为了衡量智能体在一系列可能环境中的总体智能,我们对所有环境的绩效进行加权求和 (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park)。权重可取决于环境的复杂度(复杂度低的环境应被给予更大权重,因为过分强调极其复杂的环境不利于度量通用性)。采用Kolmogorov复杂度 $K(\mu)$ 来度量环境复杂度,则环境权重取 $2^{-K(\mu)}$(Kolmogorov复杂度越高,权重越小) (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park)。*
通用智能测度 (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park):
Φ(π) = ∑μ∈E2−K(μ) Vμπ,\Phi(\pi) \;=\; \sum_{\mu \in \mathcal{E}} 2^{-K(\mu)} \; V^\pi_{\mu},
其中$\mathcal{E}$表示所有可考虑的环境集合,$K(\mu)$是环境$\mu$的算法复杂度长度,$V^\pi_{\mu}$是策略$\pi$在环境$\mu$中的标准化业绩值。例如,可令 $V^\pi_{\mu} = \frac{1}{\Gamma} \mathbb{E}\Big[\sum_{t=1}^{\infty} \gamma^t r_t \Big]$,即智能体在环境$\mu$下的单位时间折扣累计回报 (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park)($\Gamma$为归一化常数,$\gamma$为折扣率)。这个公式综合了信息论(通过$K(\mu)$刻画环境信息复杂度)和控制理论(通过$V^\pi_{\mu}$刻画在环境中实现目标的绩效)来定义智能。直观上,它度量了智能体$\pi$在越广泛、越复杂的环境中都能取得越高回报的能力。当$\Phi(\pi)$更大时,说明$\pi$能够在各种环境下有效达到目的,因而更“通用智能” (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park) (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park)。
上述测度体现了DIKWP各层次要素在整体智能中的作用:要在复杂多变的环境中取得高绩效,智能体必须高效利用数据、提取关键信息、学习环境模式(知识),并规划明智行动,所有这一切都是为了最终实现目标。因此,通用智能可以看作是DIKWP流程在不同环境的综合表现。
可计算性和实现:智能的数学模型虽然高度抽象,但各部分都有对应的可计算实现方法:
数据层和信息层对应于感知和特征提取技术,可由传感器读取和信号处理、深度学习模型提取特征等实现。
知识层对应模型学习和表示,例如训练神经网络、构建贝叶斯网络、归纳逻辑规则,都在求解上述$f_K$的过程。
智慧层对应决策优化,现实中可用动态规划、强化学习、遗传算法等寻找近似最优策略,实现$f_W$的功能。
目的层对应元学习或自适应调节,可通过在不同任务上训练的元学习算法、或在运行中调整模型参数(例如自动调整学习率、改变策略探索强度)来实现。
通用智能度量的计算需要枚举环境并计算绩效,实际难以精确计算(因为$K(\mu)$不可完全计算且环境无限多 (Kolmogorov complexity - Wikipedia))。但这一公式为理论分析提供了方向,在受限环境集合上可以近似评估不同智能体的通用能力。
总结:我们通过 DIKWP 框架对智能进行了分层描述,每一层都有相应的数学定义与工具:数据层以概率论和熵度量原始输入的不确定性;信息层以互信息和编码描述特征提取;知识层以模型、规则和复杂度理论刻画学习到的结构;智慧层以优化控制和决策理论刻画行动选择和价值权衡;目的层以目标函数和反馈机制刻画智能体的驱动力。综合这些层次,智能体可以被建模为一个多映射复合的系统,从感知到行动形成闭环,并在目标导向下不断学习和适应。
广义智能的数学定义最终体现为:智能是一种信息加工与利用系统,其通过获取数据、提炼信息、学习知识、应用智慧,在复杂多变的环境中高效地实现目标的能力 (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park)。这一能力可以用上述通用智能公式进行度量,它融合了信息论的复杂度概念和控制论的绩效最优化原则,将智能刻画为在广域环境分布上的期望绩效 (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park)。这样的定义为理解和设计智能系统提供了理论基础,有助于我们在更精确和可计算的层面上把握智能的本质。
参考文献:
Legg, S. & Hutter, M. (2007). Universal Intelligence: A Definition of Machine Intelligence. Minds and Machines, 17(4):391-444 (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park) (Paper Summary: Universal Intelligence: A Definition of Machine Intelligence | Deokgun Park).
Duan, Y., Li, Y. (2023). 人工意识和人工智能的区分以及各自的数学定义 - DIKWP模型 ((PDF) 《人工意识和人工智能的区分以及各自的数学定义-DIKWP 模型》).
Conant, R. & Ashby, W. (1970). Every Good Regulator of a System Must Be a Model of that System. Int. J. Systems Sci., 1(2):89-97 (Good regulator theorem - Wikipedia).
Shannon, C. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3):379–423 (熵 (信息论) - 维基百科,自由的百科全书).
Kolmogorov, A. (1965). Three Approaches to the Quantitative Definition of Information. Problems of Information Transmission, 1(1):1–7 (Kolmogorov complexity - Wikipedia).
转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3429562-1477128.html?mobile=1
收藏