heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

从信息损失的角度评估“学生氏t-分布”及“scaled and shifted t-分布”

已有 1023 次阅读 2024-1-27 11:53 |个人分类:信息度理论|系统分类:观点评述

笔者之前的博文【1】和论文【2】从t-转换扭曲的角度分析了学生氏t-分布。笔者最近的论文【34信息损失的角度评估了“学生氏t-分布”及“scaled and shifted t-分布”。

对于给定的一组数据(例如n个重复测量数据),我们可以得到两个样本统计量的数值:样本均值和标准误(在测量学中称为标准不确定度)。利用这两个数值,我们可以构建关于样本均值的两个备选经验概率分布:scaled and shifted t-分布和正态分布(又称为scaled and shifted z-分布)。那么,这两个备选概率分布哪一个更好?或者我们应该选择哪一个概率分布呢?我们可以从信息损失的角度来评估这两个概率分布。

香农信息熵的计算结果表明:正态分布的信息熵总是小于scaled and shifted t-分布的信息熵【3】。也就是说,scaled and shifted t-分布总是比正态分布损失更多的信息。根据“最小信息熵准则”,我们应该选择正态分布【3】。

笔者在文【4】中引入了一个称为信息度的新概念来衡量信息-概率系统的信息量。信息度可以替代信息熵来评估概率分布对于给定的数据考虑一组备选概率分布我们可以认为最佳分布是具有最大信息度的分布。这被称为“最大信息度准则”【4】。信息度的计算结果表明:正态分布的信息度总是大于scaled and shifted t-分布的信息度。也就是说,scaled and shifted t-分布总是比正态分布损失更多的信息【4】。根据“最大信息度准则” 我们应该选择正态分布【4】。

因此,“最小信息熵准则”和“最大信息度准则”(以及中心极限定理)都支持选择正态分布,不支持选择scaled and shifted t-分布作为样本均值的经验概率分布。

从本质上讲,t-转换将样本误差和标准误的联合分布(二维分布)简化为t统计量的一维分布(学生氏t-分布)。这种“降维”必然损失一部分信息,这通过信息损失分析得到了证明。

参考文献

1  黄河宁(2022关于学生氏t-分布的几点澄清, 科学网,https://blog.sciencenet.cn/blog-3427112-1352436.html

2Huang, H. (2018) Uncertainty estimation with a small number of measurements, Part I: new insights on the t-interval method and its limitations Measurement Science and Technology 29  https://doi.org/10.1088/1361-6501/aa96c7

3Huang, H. (2023) A minimum entropy criterion for distribution selection for measurement uncertainty analysisMeasurement Science and Technology, 35 (2024) 035014,  https://iopscience.iop.org/article/10.1088/1361-6501/ad1476

4Huang, H. (2023) A theory of informity, preprint, ResearchGatehttps://www.researchgate.net/publication/376206296_A_theory_of_informity



https://wap.sciencenet.cn/blog-3427112-1419535.html

上一篇:如何解释概率? 科学界一个迄今悬而未决的问题
下一篇:试用“信息度增益原理”解释“图书为何要分章节?”
收藏 IP: 104.63.253.*| 热度|

4 宁利中 刘跃 孙颉 葛及

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-26 04:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部