黄河宁
学生氏t-分布:一个误导小样本统计推断一百多年的概率分布
2020-10-1 08:43
阅读:1240

1908年,戈塞特(William Sealy Gosset)发明了统计学中著名的学生氏t-分布。戈塞特当时在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿造公司担任酿造化学技师。戈塞特得到吉尼斯公司的允许以学生Student)为笔名在《Biometrika》上发表了题为平均值的可能误差的论文。戈塞特的这篇论文被认为开创了小样本统计理论。同时期的著名统计学家费歇尔(Sir Ronald Aylmer Fisher)以t-分布为基础发明了t-检验。同时期的另一位著名统计学家纽曼(Jerzy Neyman)于1935年发明的置信区间理论中的t-区间也是基于t-分布。在之后的80多年间,t-区间和t-检验成为小样本统计推断的主要方法。

然而笔者于2006年在应用t-分布对ADCP(声学多普勒流速剖面仪)河流流量测验进行不确定度分析时发现了一个令人困惑的悖论,之后笔者在文献中又发现了与t-分布应用有关的另外两个悖论。这3个悖论使笔者怀疑基于t-分布进行小样本统计推断可能是一个谬误【1】。历经9年的迷茫和求索,笔者终于在2015年发现了 t-转换扭曲和在t-转换扭曲了的样本空间进行统计推断是一个方法论的错误。因为这个发现直接挑战了经典的小样本统计理论,投稿过程非常艰难。 3年中经历了7次拒稿后,论文终于被英国物理学会旗下的期刊《测量科学与技术》接受,并且应审稿编委的要求将原稿分成两部分【23】。从发现问题到发表答案共计12年,可谓十二年磨一剑

统计量t是样本误差ε与样本标准差s的比值。样本误差ε和样本标准差s都有物理意义。但是它们的比值t却没有物理意义。因此,学生氏t-分布是一个“人造”的、没有物理意义的概率分布;它本质上是一个“扭曲”的正态分布。

t-转换扭曲的发现颠覆了基于t-分布的小样本理论。那么有没有适合小样本的统计推断方法呢?其实,统计推断的本质就是“根据样本统计量来推断未知总体参数”。所以无论在理论上还是实际应用中,不需要人为地区分大样本和小样本。换句话说,一个有效的统计推断方法应该适用于任何样本量,只不过对于小样本,推断结果的不确定度会比较大。因此,根本就不(应该)存在所谓“小样本统计理论”。比如“无偏估计”法可以用于任何样本量,但是基于小样本的无偏估计的不确定度比基于大样本的无偏估计大。仅此而已。前面提到的t-分布应用有关的3个悖论随着无偏估计法的应用迎刃而解。所谓“大道至简”,小样本统计推断其实没有那么复杂和费解。学生氏t-分布事实上误导了小样本统计推断。

参考文献

1】 黄河宁,为什么基于t-分布计算小样本测量不确定度是一个谬误? -3 个悖论及其消解Researchgate 链接:https://www.researchgate.net/publication/343039726_weishenmejiyu_t-fenbujisuanxiaoyangbenceliangbuquedingdushiyigemiuwu_-3_gebeilunjiqixiaojie

【2】Huang H 2018a Uncertainty estimation with a small number of measurements, Part I: new insights on the t-interval method and its limitations Measurement Science and Technology 29  https://doi.org/10.1088/1361-6501/aa96c7

3】  Huang H 2018b Uncertainty estimation with a small number of measurements, Part II: a redefinition of uncertainty and an estimator method Measurement Science and Technology 29  https://doi.org/10.1088/1361-6501/aa96d8

转载本文请联系原作者获取授权,同时请注明本文来自黄河宁科学网博客。

链接地址:http://wap.sciencenet.cn/blog-3427112-1252828.html?mobile=1

收藏

分享到:

当前推荐数:4
推荐到博客首页
网友评论3 条评论
确定删除指定的回复吗?
确定删除本博文吗?