鲁晨光
语义信息G理论和应用(更新版,发表于open期刊Entropy)
2025-5-3 10:44
阅读:322

这是一篇综述文章,介绍了我35年的语义信息论和应用研究,内容来自两本专著和10篇论文的摘要。

全文(中英文版)见:http://www.survivor99.com/LCG/information/G-theory/index.html 

原来标题是An Introduction to Semantic Information G Theory and Applications. 现在改为为:

A Generalization of Semantic Information G theory and Applications (香农信息论的语义推广和应用)

    理论创新表现在以下几个方面:

    1. 它强调推广香农信息论而不是建立一个和香农信息论平行的语义信息论。推广方法就是用语义约束代替失真约束, 其他不变, 特别是编码方法不变。但是语义约束包含语义真约束,语义信息量约束和语义信息损失约束, 这不同于电子通信研究者——通常只考虑语义真约束(用某种距离表示)。

image.png

    2. 使用P-T概率框架,整合了频率主义的概率、Kolmogorov的集合的概率,和模糊集合论;使得语义信息测度可以用于改进机器学习。

    3. 指出流行的最小自由能原理中的错误。最小自由能准则是Hinton和Camp提出来的机器学习优化方法,后来Friston把它发展成最小自由能原理。文中说明流行的自由能F就是语义后验熵H(X|Yθ), 语义互信息=H(X)-F. 最小化自由能就是最大化语义互信息。但是在G理论中是小化香农互信息减去语义互信息I(X;Y)-I(X; Yθ )=H(X|Yθ)-H(X|Y)=F-H(X|Y). 变分贝叶斯和最小自由能的实际算法也是最小化F-H(X|Y),而不是最小化F,因为在混合模型收敛过程中,F可能增大。

    4. 指出诺贝尔获奖者Arrow的信息价值理论的错误——认为资本增值率等于信息熵。美国Cover和Thonmas的信息论教科书《Elements of Information Theory》犯了类似错误——得到结论:资本翻倍率等于香农互信息。文中提出正确结论——兼容Kelly下注注公式。

    敢于指出权威理论的错误显示了作者实力, 不然只能自取其辱!这也提示我们:1)不要迷信权威;不要以为千万人认可的东西就没有错误。2)创新和质疑权威理论是相关的,要包容对权威的质疑极其困难。这也是创新难以被接受的主要原因。欢迎读者对我质疑的质疑。

    全文见:http://www.survivor99.com/LCG/information/G-theory/index.html 

摘要:

摘要:语义通信是否需要一个和香农信息论平行的语义信息论,还是只需要在香农信息论基础上推广?作者主张后者。语义信息G理论就是一个推广香农信息论得到的语义信息论。推广的方法是:仅仅添加语义信道,它由一组真值或隶属函数构成。通过真值函数可以定义语义失真,语义信息量和语义信息损失。语义信息量就等于CarnapBar-Hillel的语义信息量减去失真量, 最大语义信息准则等价于最大似然准则,类似于正则化最小误差平方准则。本文显示了G理论用于语义的和电子的语义通信,机器学习,约束控制,贝叶斯确证,投资组合和信息价值。改进机器学习方法涉及多标签学习和分类、最大互信息分为类,混合模型,求解隐含变量。文中还通过统计物理学分析,得到有意义结论:香农信息就相当于自由能,语义信息就相当于局域平衡系统的自由能和做功能力;最大信息效率就相当于用自由能做功时的最大热功效率;Friston的最小自由能原理可以改进为更加易于理解和使用的最大信息效率原理。文中比较了G理论和其他语义信息理论的区别和联系,讨论了它表示复杂数据语义的局限性。

1.     引言

虽然香农信息论【1】已经取得极大成功,但是它的三个缺点限制了它在语义通讯和机器学习领域的应用。一是它不能度量语义信息;二是它用失真函数评价通信质量,而失真函数是主观定义的,没有客观标准;三是不便把模型参数带进熵公式,而机器学习更需要带有模型参数的交叉熵和交叉互信息。另外,最小失真准则就像是“无过便是德”的准则,而我们希望用“功大于过便是德”的准则。为什么香农信息论不用信息准则而用失真准则?这是耐人寻味的。

语义信息研究在香农信息论问世后不久就得到重视。Weaver提出语义信息和信息效用的研究【2】;CarnapBar_Hillel提出一个语义信息理论【3】。30年前,本文作者推广香农信息论到一个语义信息论【4-6】——现在被称之为语义信息G理论(简称G理论)7】。 G的意思是推广,G理论就是推广的香农信息论。提出自己的语义信息论的人在作者之前有CarnapBar-Hillel, Dretske8】,吴伟陵【9】和钟义信【10】,在作者之后有Floridi11,12】和其他人【13】。这些理论主要关注领域是日常语义通信,特别是关注如何度量简单语句的语义信息。

最近十年,语义通信和语义信息论的研究在下面两个领域发展迅猛。一是电子通信领域。新六代高速互联网的需求催生了一些新的语义信息理论或方法【14-16】,它们更加关注电子语义通信,特别是语义压缩【17-19】。这些研究有很高的实用价值,但是它们的重点还是电子语义通信,考虑了语义信息损失,但是并没有提供一个普遍适用的语义信息测度,比如既能度量天气预报的信息,也能度量GPS指针的信息,还能度量一种颜色感觉的信息。

另一个是机器学习领域。机器学习领域广泛地使用了交叉熵,后验交叉熵(粗略说来就是变分自由能【20-22】),语义相似度,估计互信息【23-25】,正则化失真【26】等。这些信息或熵测度被用于优化模型参数和隐含变量【27-29】,取得显著成功。不过机器学习领域的研究者很少谈及“语义信息理论”,在我看来,一个重要原因是,这些作者没有看清估计互信息就是语义互信息的特例,信源熵减去变分自由能就是语义互信息。所以他们也没有提出一般的语义信息测度。关于估计互信息和香农互信息之间关系是怎样的,机器学习研究者们仍然不清楚. 比如,关于需要最大化或最小化的究竟是哪种互信息,存在争议【23,30-32】。虽然把深度学习方法用于电子语义通信或语义压缩也取得意义进展【171833】,但是理论解释还是不太不明确,以至于方法各异。

30年前,作者推广信息率失真函数得到的信息率逼真函数R(G)(R是给定语义信息量G时的最小香农互信息)。并把R(G)函数用于图像数据压缩——根据视觉分辨率【5,7】。最近10年,作者把模型参数带进真值函数,用真值函数作为学习函数【7,3234】,用样本分布优化真值函数。应用到机器学习领域包括多标签学习和分类,不可见实例的最大互信息分类,混合模型,贝叶斯确证【35,36】,语义压缩【37,求解隐含变量【30)

语义通信迫切需要像信息率失真理论【38-40】那样的语义压缩理论; R(G)能直观的显示香农互信息和语义互信息之间的关系,可用来证明混合模型收敛【7】,和求解隐含变量,看来具有普遍意义。

因为上面原因,本文写作动机之一是,希望通过把G理论中语义信息测度和R(G)函数应用于上述三个领域(日常语义通信,电子语义通信和机器学习),说明不同领域可以使用相同的语义信息测度和优化方法。

另一方面,研究者对待语义信息论,研究者们有两种极端观点。一种是认为香农信息论就够了,不需要语义信息论,最多只需要定义语义损失。这是电子语义通信领域常见做法。另一种是:我们需要建立一个和香农信息论平行的语义信息论。为了建立平行的语义信息论,有人只用逻辑概率,不用统计概率(CarnapBar-Hillel); 有人考虑语义信源,语义信道、语义信宿,语义信息率失真16】。

l  G理论是一个在两种极端观点之间折衷的产物。它完全继承香农信息论,包括在香农理论基础上发展的有关理论,只是另外添加了语义信道——它由一组真值函数构成。根据Davidson的真值条件语义学【41】,真值函数反映概念的外延和语义。有了语义信道,我们可以从真值函数和信源P(x)得到似然函数,从而在统计概率预测之外添加语义概率预测; 进而度量语义信息。语义信息测度并不对标香农信息测度,而是和失真相反的评价通信质量的测度。

l  用语义约束代替香农信息论中的失真约束;语义约束包括语义失真约束、语义信息量约束和语义信息损失约束。

语义信息测度并不取代香农信息测度,而是取代失真测度,用以评价通信质量。而真值函数可以通过机器学习方法从样本分布得到。这也解决了经典的失真函数不好定义问题和不能使用信息准则优化香农信道的问题。推广而不是重建最重要的好处是:我们不需要考虑电子语义通信的编码问题,因为我们可以把语义约束函数看作是新的失真或负的失真函数,使用已有的编码方法就行了。

写作本文的动机之二就是想指明,在香农信息论基础上,用语义约束代替失真约束,就能实现语义通信优化。

G理论近年来不断完善,很多成果分散介绍于作者发表的若干文章中,所以作者想做一个全面介绍,以便后来者少走弯路。这是本文写作动机之三。

已有的语义通信理论综述文献主要介绍电子语义通信的进展【14,15,42,43 ,不同的是,本文介绍的语义信息论进展还涉及日常语义通信和机器学习。虽然本文主要介绍作者的G理论,但是也比较了它和其他语义信息理论的区别和联系。语义电子通信理论和语义信息理论不同,前者聚焦一个任务并涉及很多方面;而后者聚焦一个基础理论涉及很多任务。一个不能取代另一个。本文的新颖性还在于,其中说明了G理论除了继承香农思想, 还继承了Popper关于语义信息、逻辑概率和事实检验的思想【44,45】,Fisher最大似然思想【46】和Zadeh的模糊集合思想【47,48】。为了结合Popper的逻辑概率和Zadeh的模糊集合,笔者提出P-T概率框架【32】,使得我们可以同时使用两种概率:统计概率和逻辑概率。

本文目的是:1)通过全面介绍语义信息G理论,增进不同领域的语义信息理论研究者之间的交流;2)希望G理论能成为未来的完善的语义信息理论的基础部分。

本文主要贡献是:

1)  从新的角度(用语义约束代替失真约束)系统地介绍了语义信息G理论,并指明了它和香农信息论以及其他语义信息理论的区别和联系;

2)  系统地介绍了G理论在语义通信、机器学习、贝叶斯确证、约束控制、投资组合等方面的应用,及其局限性。

3)  把信息论和机器学习中许多概念和方法联系起来,将使读者更深理解语义信息论和机器学习。

G理论也有其局限性,它不是一个完善的语义信息理论,比如对于复杂数据的语义表示和数据压缩,它赶不上深度学习的步伐。

本文第二节介绍G理论,第三节讨论电子语义通信,第四节介绍目标导向信息和信息价值(结合投资组合复利理论),第五节介绍G理论应用于机器学习。最后一节是讨论和总结——包括讨论信息概念,比较G理论和其他语义信息理论,指出G理论的局限性和需要进一步研究的问题。

目录:

1.       引言

2.       从香农信息论到语义信息G理论

2.1       语义和语义概率预测

2.2      P-T概率框架

2.3 语义信道和语义通信模型

2.4       推广香农信息测度到语义信息G测度

2.5       从信息率失真函数到信息率逼真函数

2.6 语义信道容量

3        电子语义通信优化

3.1 电子语义通信模型

3.2 电子语义通信优化——用语义信息损失作为失真量

3.3 实验结果:根据视觉分辨率压缩图像数据

4. 目标导向信息,信息价值,物理学熵和自由能

4.1 和价值有关的三种信息

4.2 目标导向信息(合目的信息)

4.3 投资组合和信息价值

4.3.1投资组合的增值熵

4.4  热力学系统中的信息,熵和自由能之间的关系

5.       G理论用于机器学习

5.1       机器学习的基本方法——学习函数和优化准则

5.2 用于多标签学习和分类

5.3 用于不可见实例最大互信息分类

5.4 用于解释和改进用于混合模型的EM算法

5.5语义变分贝叶斯——求解隐含变量的简单方法

5.6 用于贝叶斯确证和因果确证

5.7新兴的和潜在的应用

6.       讨论和总结

6.1 推广香农信息论的核心思想和关键方法

6.2几个需要质疑的观点

6.3什么是信息? G理论如何兼容日常信息概念?

6.4 G理论和其他语义信息论联系和区别

6.5 G理论和Kolmogorov复杂性理论关系

6.6 比较最大信息效率原理和最小自由能原理

6.7 局限性和需要探讨的

6.8 结论

更多文章见: http://survivor99.com

 

 

转载本文请联系原作者获取授权,同时请注明本文来自鲁晨光科学网博客。

链接地址:https://wap.sciencenet.cn/blog-2056-1484353.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?