美国德保罗大学客座教授Blaine Tomkins最近在ResearchGate上提出了一个讨论题:“当今教给统计专业学生有哪些最被误解的概念?” 他写到:“作为一名统计学讲师(曾经被传授过许多错误的或者误导性知识的学生),我很好奇其他人(无论你是学生、教师、研究人员、审稿人等等)在研究或教学中遇到的有关统计学的“坏”概念或实践(可以是针对特定的统计检验或者更为一般的概念)。当今统计学教学中最大的问题是什么?”
笔者认为当今统计学教科书中至少有三个最被误解和最为误导的概念或理论:统计显著性假设检验和p值、置信区间、学生氏t-分布。
一、统计显著性假设检验和p值
统计显著性假设检验(包括t-检验、F-检验等等)发明于上个世纪20年代,简称显著性检验或者假设检验,是频率学派最重要的统计推断方法之一。假设检验一直是统计学教科书的标准内容之一。研究人员广泛使用“统计显著性”作为科学发现的“证书”。研究成果是否具有统计显著性由假设检验得到的p值来判断,通常采用p=0.05作为阈值的二分法,即p<0.05具有统计显著性,p>0.05则不具有统计显著性。 尽管许多科学家知道“统计显著性”不等同于“科学显著性”,“统计推断”也不等同于“科学推断”,“统计显著性”和p值还是经常被研究人员滥用和误解。McShane and Gal (2017) 的研究表明,“……,也许令人惊讶的是,即使本身为统计学家的研究人员也容易滥用和误解p值,从而导致类似的错误”。
其实长期以来学术界对假设检验和p值一直有很大的争议。例如Ziliak和McCloskey (2008) 的著作专门论述假设检验的错误。最近几年,假设检验和p值受到更为强烈的质疑和严峻的挑战。这是因为许多科研新发现被认为是“假阳性”,无法被重复试验证实,导致所谓“可重复性危机”。许多学者认为,显著性检验和p值的应用或者滥用是造成“假阳性”和“可重复性危机”的主要原因之一。2016年,美国统计协会(ASA)发布了一则关于p值的“官方”声明(Wasserstein and Lazar 2016),警示滥用统计显著性和p值。 2019年3月,800多位学者在《Nature》上联名呼吁“摒弃整个统计显著性概念”。心理学期刊《Basic and Applied Social Psychology》早在2015年初就正式禁止使用显著性检验和置信区间 (Trafimow and Marks 2015)。Amrhein, Greenland, and McShane (2019) 建议假设检验“退休”。显然,p值的统治时代已经结束(Halsey 2019),学术界将进入后p<0.05时代(Wasserstein, Schirm, and Lazar 2019)。Halsey (2019) 认为p值统治时代的结束出现了“权力”真空,讨论了有可能替代p值的几种统计量来填补“权力”真空,包括置信区间、贝叶斯因子、赤池信息准则(AIC)。笔者 (Huang 2019) 最近根据能量守恒定律提出了一个有可能替代p值的统计量:信号指数(Signal content index (SCI))。近年来,寻求较好的统计量替代p值成为统计学界一个非常热门的研究课题。
二、置信区间
置信区间理论发明于上个世纪30年代。 它在刚提出时就受到质疑。当时的著名统计学家费歇尔指出置信区间理论的主要缺陷是“结果的不唯一性”。著名质量管理专家戴明(Deming 1982)曾经告诫:”… 学生还应该跳过教科书中有关置信区间和显著性检验的段落,因为这些计算在科学和工业分析问题中没有应用。”显然,戴明的告诫被学术界忽略了。置信区间通过统计学教科书得以广泛传播,并且与显著性检验一起成为频率学派最重要的统计推断方法之一 。
置信区间及置信水平被认为是统计学中最容易和最经常被误解的概念之一。例如许多人会认为“置信水平是总体参数值落在样本统计值某一区内的概率”或者认为“真值落在某一置信区间内的概率为置信水平1-α”。对于置信区间的误解不仅仅局限于普通应用者,也见于一些统计学家或者专家(Morey et al 2016b)。例如《测量不确定度表示指南》将置信区间的半宽定义为扩展不确定度,即将置信区间作为测量精密度的量度。
置信区间与显著性检验和p值在统计学意义上是等价的,可以互换。 因此,一些学者认为用置信区间取代显著性检验和p值不能够解决后者的问题。这也是心理学期刊《Basic and Applied Social Psychology》同时禁止使用显著性检验和置信区间的原因。Morey 等人于2016年发表了一篇题目为:“The fallacy of placing confidence in confidence intervals” 的论文,详细论述了置信区间的局限性和缺陷,指出置信区间不是用来推断未知参数的, 并建议科学界摒弃置信区间(Morey et al 2016a)。
三、学生氏t-分布
1908年,戈塞特在以“学生氏”为笔名发表的一篇论文中提出了一个概率分布,后来被称为学生氏t-分布。 同时期的著名统计学家费歇尔以t-分布为基础发明了t-检验。同时期的另一位著名统计学家奈曼发明的置信区间理论中的t-区间也是基于t-分布。学生氏t-分布被认为是小样本统计推断的理论基础。
几乎所有的统计学教科书都包括 t-分布、t-检验、和t-区间的内容,但是加州大学戴威斯分校的Matloff教授在他的专著《From Algorithms to Z-Scores: Probabilistic and Statistical Modeling in Computer Science》中有意摒弃了t-分布、t-检验、和t-区间 (Matloff 2014a)。Matloff教授还发表了一篇题目为:“为什么我们还在教t-检验?”的博文 (Matloff 2014b)。他在博文中指出:“t-检验是 [统计学]课程弊病的一个例子…….我提倡跳过t-分布,直接根据中心极限定理进行推断” 。
D’Agostini (1998) 质疑t-分布作为解决小样本统计推断问题的标准方法,举出一个例子来说明, “…测量这张纸的厚度两次,得到测量结果相差0.3毫米…。任何一个具有理性思维的人都不会宣称测量结果在99.9%置信水平下的不确定度区间为9.5厘米(木匠都会嘲笑的)。据我所知,这就是为什么物理学家不采用学生氏t-分布的原因。”
笔者于2006年在应用t-分布对ADCP(声学多普勒流速剖面仪)河流流量测验进行A类不确定度评估时发现了一个悖论,之后在文献中又发现了与t-分布应用有关的另外两个悖论。这三个悖论使笔者怀疑基于t-分布进行小样本统计推断可能是一个谬误。 笔者于2015年发现 “t-转换扭曲”和在t-转换扭曲了的样本空间进行统计推断是一个方法论的错误,于2018年发表了一篇关于 “t-转换扭曲”的论文,揭示了“t-转换扭曲”是A类不确定度在小样本时偏差很大的根源。事实上,t-分布对正确评估测量不确定度造成了障碍,因此所有基于t-分布计算小样本测量不确定度的方法都必须摒弃。笔者根据经典概率论中的的误差理论和点估计理论,提出了基于概率误差限的不确定度定义,并且提出了测量误差与不确定度的统一理论 (Huang 2018b, 2018c)。统一理论采用无偏估计法计算A类不确定度,从而解决了与t-分布应用有关的三个悖论。
学生氏t-分布本质上是一个“扭曲”的正态分布。“扭曲”程度取决于样本量,在样本量=2时最大,随着样本量增大减小。尽管t-分布本身在数学上是正确的,其数学推导过程无懈可击,基于t-分布的统计推断却可能是错误的。学生氏t-分布原本是为了解决小样本统计推断问题而发明的,但是事实上却误导了小样本统计推断。
四、结语
以上简要地讨论了当今统计学教科书中三个最被误解和最为误导的概念或理论。这三个概念或理论作为统计学的主流范式已经具有80-100多年的历史,但是如今却遇到了前所未有的严峻挑战。 保留、修补、还是推翻这些主流范式的争论现在还在一些统计学期刊和因特网上进行。然而挑战也是机遇:促使我们重新审视这些主流范式,寻求创立新的范式(比如发明更合理的统计推断方法)。特别是在编著新的统计学教科书时需要考虑是否继续保留这三个概念或理论。如果保留,笔者认为需要指出它们的局限性和缺陷,而不是像当今的教科书那样将一些错误的或者误导性知识当作“真理”传授给学生(像 Blaine Tomkins当学生时曾经经历过的)。
参考文献:略
转载本文请联系原作者获取授权,同时请注明本文来自黄河宁科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3427112-1269013.html?mobile=1
收藏