博文

“最小熵准则”与“最大熵原理”--- 回复谢钢博主

已有 902 次阅读 2023-12-30 11:22 |个人分类:统计推断与概率|系统分类:论文交流

首先感谢谢钢老师对笔者的博文【1】: “‘测量不确定度分析中概率分布选择的最小熵准则’论文上线” 的关注。谢老师在评论区问道: “不知道黄老师的这个最小熵准则与张学文老师的最大熵原理加不同的约束条件可推导出不同的统计分布https://blog.sciencenet.cn/blog-284004-244552.html之间有什么样的联系没有。”谢老师提出了一个很好的的问题。这个问题涉及如何理解和应用“最小熵准则”及“最大熵原理”。这篇博文试着回答谢老师的问题。

在许多实际工作中，我们经常需要根据“可用信息”（或者是给定信息）在一组备选概率分布中选择最佳概率分布。考虑一个常见的例子：给定一组数据{x_i} (i=1, 2, … n) 选择样本均值的最佳概率分布（即拙文【2】中的案例A)。假定我们不知道这组数据取自何种概率分布，但是知道X的取值范围是（-∞，+∞）并且具有趋中性。根据这些可用信息，我们可以考虑三个概率分布作为样本均值的备选分布：正态分布、scaled and shifted t 分布、拉普拉斯分布。“最小熵准则” 要求所有的备选概率分布满足相同的“可用信息”，即备选概率分布的模型参数必须根据“可用信息”确定。对于这个实例，三个备选分布的参数根据给定的数据{x_i} (i=1, 2, … n) 来确定。“最小熵准则”的思想是：最佳概率分布应该是信息熵最小的分布。这是因为本质上我们是用概率分布模型来拟合给定的数据，任何概率分布模型都会造成一定的信息损失；模型拟合的越好，信息损失越少，对应的信息熵越小。对于这个例子，根据“最小熵准则”确定的样本均值的最佳概率分布是正态分布。这个结果与“中心极限定理”给出的结果是一致的。注意到“最小熵准则” 与“中心极限定理”都不支持scaled and shifted t 分布作为样本均值的概率分布。

另一方面，根据“最大熵原理”加不同的约束条件可推导出不同的概率分布。比如对应于约束条件[a, b]的最大熵分布是均匀分布，其它任何在[a, b]上的概率分布的熵都比均匀分布的熵小。值得注意的是：“最大熵原理”要求所有的备选概率分布满足相同的“约束条件”，但是备选概率分布的模型参数并非根据约束条件确定。对于前面的例子（即拙文【2】中的案例A)，如果要求三个备选概率分布：正态分布、scaled and shifted t 分布、拉普拉斯分布满足“标准差相同”的约束条件，则正态分布是最大熵分布。如果要求三个备选概率分布满足“样本与样本中位数的平均绝对偏差相同”的约束条件，则拉普拉斯分布是最大熵分布。

因此，“最小熵准则”与“最大熵原理加不同的约束条件可推导出不同的统计分布”之间没有联系，尽管它们都涉及信息熵的计算。

另外，“最小熵准则”与“赤池信息准则 (AIC)”在选择最佳概率分布方面是一致的。笔者在拙文【2】中考虑了谢老师博士论文【3】中的一个应用赤池信息准则的实例。谢老师用威布尔（Weibull）分布生成了一个数据集 (n=200)，考虑了四种备选分布：指数分布、威布尔分布、伽马分布、正态分布。谢老师根据最大似然原理估计了模型参数，并计算了四个备选分布中每个分布的 AIC 和 ΔAIC 值（见表 A）。笔者使用谢老师给出的参数值计算了四个备选分布中每个分布的信息熵和ΔMEC 值，结果也示于表A中。

从表A可以看出，威布尔分布的AIC值是四个备选分布中最小的。因此，根据赤池信息准则，威布尔分布被认为是最佳分布【3、4】。我们注意到威布尔分布的信息熵值也是四个备选分布中最小的。因此，根据最小熵准则，威布尔分布是最佳分布。赤池信息准则和最小熵准则之间的一致性并不令人惊讶，因为这两个准则都是基于香农信息论的。然而，赤池信息准则不能用于本研究中【2】考虑的案例 A 或案例 B 的概率分布选择。这是因为赤池信息准则要求所有备选模型（分布）的模型参数必须是按最大似然估计法得到的。案例 A 和案例 B 中考虑的备选分布的模型参数并不都是最大似然估计。而最小熵准则没有这样的限制。无论模型参数估计使用何种方法都可以使用。因此，可以认为最小熵准则在概率分布选择方面比赤池信息准则更通用。

【1】黄河宁（2023). “测量不确定度分析中概率分布选择的最小熵准则”论文上线，科学网，https://blog.sciencenet.cn/home.php?mod=space&uid=3427112&do=blog&id=1413467

【2】Huang H (2023). A minimum entropy criterion for distribution selection for measurement uncertainty analysis, Measurement Science and Technology, 35 (2024) 035014, https://iopscience.iop.org/article/10.1088/1361-6501/ad1476

【3】Xie G（2011). Further developments of two point process models for fine-scale time series. Doctor of Philosophy thesis, Massey University, Wellington

【4】谢钢（2022). “最佳”回归(或‘最佳拟合’)模型与AIC（赤池信息准则）及其它信息准则，科学网，https://blog.sciencenet.cn/blog-3503579-1323091.html

转载本文请联系原作者获取授权，同时请注明本文来自黄河宁科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3427112-1415939.html

上一篇：“测量不确定度分析中概率分布选择的最小熵准则” 论文上线
下一篇：“信息度理论”简介

收藏 IP: 104.63.253.*| 热度|

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

“最小熵准则”与“最大熵原理”--- 回复谢钢博主

当前推荐数：9 推荐人：宁利中 孙颉 尤明庆 李毅伟 谢钢 窦华书 王安良 杨正瓴 刘跃

该博文允许注册用户评论请点击登录评论 (6 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

“最小熵准则”与“最大熵原理”--- 回复谢钢博主

当前推荐数：9 推荐人： 宁利中 孙颉 尤明庆 李毅伟 谢钢 窦华书 王安良 杨正瓴 刘跃

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：9 推荐人：宁利中孙颉尤明庆李毅伟谢钢窦华书王安良杨正瓴刘跃

该博文允许注册用户评论请点击登录评论 (6 个评论)