博文

统计显著性问题的历史由来及最新进展

已有 5708 次阅读 2022-3-1 18:01 |个人分类:对统计推断及统计显著性问题的评述与讨论|系统分类:观点评述

很高兴看到黄河宁老师把关于统计显著性问题的最新动态报告给中文网页的学者/同仁（科学网—关于统计显著性和p值的大辩论：保守派最新的反击与改革派的回应 - 黄河宁的博文 (sciencenet.cn)及科学网—统计学改革：挑战与机遇 - 黄河宁的博文 (sciencenet.cn)。我的理解是统计显著性问题是一个关乎统计推断在推动科学新发现的过程中所能起到的作用或扮演的角色的十分重要的问题，通常大家更为关注的p-值问题只是其中的一个表层问题而已。

首先，我想先把我最近翻译的一段网上2019年发表的文章放在这里供大家了解一下统计显著性问题的历史由来。然后我们可能会更容易从一个比较全面深入的角度来讨论这个问题。

（译文部分开始：）我们是如何陷入这样的麻烦的境地的呢？
如果说依赖于过分简单化了的“显著性”检验是一个问题，我们是如何落到这个地步的呢？无法相信的是，这是一个关于两个统计学家的故事，他们彼此讨厌对方但他们的统计分析理念却被强行捆绑在一起，而这样的做法并未得到其中如何一方的认可。而这一切都是从1920年代在英格兰发生的一件一杯下午茶的事件开始的。几名学者在一起喝下午茶。其中一个是布兰卡.布里斯托(Blanche Bristol)博士，一位同事递上一杯泡好的奶茶给她，但她不要，原因是这位先生先把茶水倒到杯子里然后再加的牛奶。布里斯托博士喜欢先将牛奶倒进杯子里再掺茶水，所以她拒绝了。这位先倒茶再加牛奶的先生认为她肯定无法分辨出两者之间的差别。她坚持她能。这位先生，罗纳德.艾谟.费雪博士于是提议做一个检验，这整件事因他把它写进了他的“实验设计”这本著作中而名扬天下。他会准备八个茶杯；其中四个先倒茶再加牛奶而另四个则先倒牛奶后倒茶。她必须根据自己的判断给出结论哪个杯子的奶茶是用哪种方法冲泡的。他提出了一个无效假设来假定她无法作出正确的判断。费雪算出来，在假定上述无效假设成立的前提下，她能正确地猜中所有八杯奶茶的冲泡方式的概率为1/70。他愿意仅就这个试验而言有条件地承认她正确判断的能力（即拒绝无效假设）。据称她的判断结果无一错误，无效假设被拒绝了。这就是显著性检验的开始。
在同一个时期，两位统计学家，杰茨.耐曼(Jerzy Neyman) 和爱根.皮尔逊(Ergon Pearson)则在研究假设检验 – 即在彼此竞争的假设结论中单单以实验设计条件作为依据来做出选择决定。耐曼认为假设检验是对显著性检验的一个改进。费雪不接受耐曼的观点。由于耐曼与皮尔逊的父亲共事的缘故费雪原本就不喜欢耐曼，因为费雪与老皮尔逊过往长期意见不合。耐曼与费雪为谁的检验方法更好而争持不休直至费雪去世。
而在此期间，某些可笑的事情发生了。古德.吉仁泽(Gerd Gigerenzer)在他的（嘲讽尖刻的）文章中（宗教仪式般的统计分析方法：可重复性的错觉以及我们如何落到这个地步，2018, Statistical Rituals: The Replication Delusion and How We Got There, https://doi.org/10.1177/2515245918771329 ）将所发生的这些事很好地总结为：“早期统计教科书的作者们竭力想弄出一个看上去客观的统计推断分析方法，用这个方法就能机械式地把真正原因与随机变化的现象区分开来，无需使用者另加思考判断。其结果就是，费雪的方法与他的智力对手们（波兰统计学家杰茨.耐曼（1894-1981）和英国统计学家爱根.皮尔逊（1895-1980）的方法被强行地捏合到了一起（如同在散弹枪枪口威逼下成就的一场婚姻）。这个杂交的理论的核心就是无效宗教仪式。” 对他所称之为“无效宗教仪式”的理论他是这样描述的：
“1. 设定一个无效假设，例如‘平均值无差别’或‘零相关’。不要规定你自己的研究假设的预测结果。
2. 以5%作为一个惯例标准来拒绝无效假设。如果检验结果是显著的，接受你的研究假设。以p<0.05，p<0.01 或 p<0.001的形式表述检验结果，不论p-值达到了哪一级的显著性的指标值都可以。
3. 每次都按这个步骤及过程得出分析结果/结论。”
“正确的统计学理论里没有无效宗教仪式的一席之地”，吉仁泽继续写道。“这一点并不是总能被理解；甚至对它（无效宗教仪式）批评的意见中有些时候也把它与费雪的无效假设检验理论混为一谈并称之为‘无效假设显著性检验’。实际上，这个（统计分析的）宗教仪式是对费雪的方法和耐曼及皮尔逊的方法的一个不和谐的组合/混合，并凸显了一个新的特殊之点：去除了研究人员的专业判断的因素。”
（译文部分结束；文章出处链接https://www.marugroup.net/insights/blog/danger-of-relying-on-statistical-significance，作者： Andrew Grenville, Chief Research Officer | June 3, 2019。）

请各位同仁注意，费雪(R. A. Fisher)提出的是‘显著性检验’ (Significance Testing),它是与杰茨.耐曼(Jerzy Neyman) 和爱根.皮尔逊(Ergon Pearson)后来提出的‘假设检验’(testing of hypothesis)是有着实质性差异的不同的东西。在费雪(R. A. Fisher)的‘显著性检验’里是不需要一个所谓的”备择假设“的；至于”统计功效“(statistical power)，置信区间(confidence interval)，一类错误/二类错误(type I error/type II error)也只属于耐曼和皮尔逊的”假设检验“的一部分。因为“显著性检验”与“假设检验”所依据的统计推断的哲学基础是完全不同的。费雪(R. A. Fisher)的”显著性检验“依据的是归纳法（从特例到一般）推断出最可能的结论，而耐曼和皮尔逊的‘假设检验’依据的是演绎法（数理逻辑推演）得出结论。费雪(R. A. Fisher)的‘显著性检验’强调根据一组样本数据得出阶段性的结论，耐曼和皮尔逊的‘假设检验’强调控制一个抽样过程（相同的抽样事件重复多次）的最终一类错误与二类错误的上限。耐曼指出，在统计功效水平比所确定的显著性水平还低的情况下（比如，alpha=0.05,beta > 0.95)，费雪(R. A. Fisher)的‘显著性检验’的结果从数学的角度是完全误导人的(耐曼的原文为worse than useless)。比如，如果在布里斯托博士品茶的例子中允许我们设定，Ho:她能做出正确判断的概率=0.5; Ha: 她能做出正确判断的概率=0.501,就很可能造成统计功效低于显著性水平的情况。而费雪则指责“假设检验”根本就不是一个真正意义上的统计检验方法（只是一个决策法则）。有兴趣的同仁可通过阅读中国统计出版社翻译的“女士品茶”一书第1，10，11章了解更多的有关内容（英文原著为David Salsburg写的“The Lady Tasting Tea：how statistics revolutionized science in the twentieth century”，2001年出版）。

费雪与耐曼和皮尔逊的在统计检验理论与方法的学术争论其实是一个更深层次问题的反映：逻辑推理与概率型证明推理是不相容的（logic and probabilistic arguments are incompatible）。换句话说，从数学的角度看，费雪的‘显著性检验’是在逻辑上不严谨的（但费雪把对某组样本数据的分析结果看成是/用作判断有关的假设真伪的证据）；可是耐曼和皮尔逊的‘假设检验’虽然在逻辑上严谨了却失去了其统计检验的原本含义-它对任何一组样本数据的分析结果都不可当作判断有关的假设真伪的证据，研究人员只可根据结果决定接受原假设还是备择假设。因此，仅仅就对任何一组样本数据的分析结果而言，不论是费雪的‘显著性检验’还是耐曼和皮尔逊的“假设检验”在理论上都无法使我们确认/验证其相关的科学假设的真伪。于是在上个世纪四十年代开始，统计教科书的作者们（最典型的是George W. Snedecor 著的 “Statistical Methods”到1989年止共出了八版）竭力想弄出一个看上去客观的统计推断分析方法，一厢情愿地把费雪的‘显著性检验’和耐曼和皮尔逊的‘假设检验’捏合成为‘无效假设显著性检验’(Null Hypothesis Significance Test, 简称NHST)。目前几乎所有我们使用的标准统计教科书统计检验部分都是这么一种从未在理论上被证明为正确的混合物。有的教科书定义的NHST范式取自更多的费雪的“显著性检验，有的取自更多的耐曼和皮尔逊的“假设检验。但这些NHST统计检验范式有一个共同特点，都强调只要按几个菜谱式的机械步骤即可得出对某组样本数据的分析结果（比如p-值或95%的置信区间）然后把它们看成是/用作判断有关的假设真伪的证据。

此外，统计假设检验理论依据的是‘统计抽样分布理论’，它的根本假设条件是‘随机样本’；要想实现随机抽样就要先定义‘抽样总体’。而现实生活是‘抽样总体’往往是无法定义的（比如几乎所有医学统计分析研究，我们既无法定义抽样总体，也无法进行随机抽样；在动物研究项目中，同样也无法定义抽样总体，进行随机抽样），当然‘随机抽样’也就成了一纸空谈而已。为了尽量降低混杂因素的影响，需要有试验设计（experimental design，比如人为地对试验对象与处理水平进行随机配对），否则的话，你的研究项目只是一个观察性研究(observational study)而不是试验性研究（experimental study）。现实是绝大部分研究项目都是观察性研究 – NHST所要求的基本假设条件是无法满足的。我们使用的标准统计教科书虽然在讲统计理论的数学定理时都提到这些统计假设检验范式所要求的基本假设条件，但到了分析实际数据的时候几乎没有例外对以上提到的假设条件统统提都不提或假定这些条件已得到满足，只要有一组数据就上NHST。这就是为什么古德.吉仁泽(Gerd Gigerenzer)说NHST“这个杂交的理论的核心就是无效宗教仪式（The essence of this hybrid theory is the null ritual）。”不幸的是NHST这种机械式，宗教仪式般的假设检验范式非常符合人们‘非白即黑’的思维模式，也符合统计学教科书作者们一厢情愿的‘用统计检验代替科学实验’的愿望。尤其在今天学术界‘不发表文章就出局（publish or perish）’的游戏规则下，NHST大行其道，不论多少的统计学家指出其根本的问题所在，统统被学术界主流组织机构或出版物所忽视，自上世纪五六十年代以来历久不衰。

现在让我们用一个具体的例子来说明NHST的不合理性。假定一个最经典的单因素方差分析例子：给某种作物施了三种不同的化肥（三种处理A， B， C；样本容量30，即每种化肥的产出有10个数据），观察其产出结果，试验完全按照随机化处理的要求完成。数据分析结果（95%置信区间）为：处理A（7.8，12.0），处理B（9.4，13.6），处理C（12.2，16.4）。按照NHST的标准结论我们会说处理C比处理A的平均产出高（因为置信区间未重叠）而无法判断处理B是否比处理A的平均产出高（因为置信区间重叠）。简单起见，我们不讨论多重比较的问题，所以我们只把处理A看作参考水平，不讨论处理C与处理B之间的比较。假如这些数据是根据样本容量为15得出的（即每种化肥的产出有5个数据），数据分析结果（95%置信区间）则变成了：处理A（6.6，13.2），处理B（8.2，14.8），处理C（11.0，17.6），这下子仅仅因为样本容量变小了，所有的比较都成了统计上不显著的了，所以，不论是处理C比较处理A还是处理B比较处理A我们都不能得出一个确定的结果（一个常常犯的错误是把‘统计非显著的’结果解释成‘没有真正的差别’）。同样的，假如这些数据是根据样本容量为300得出的（即每种化肥的产出有100个数据），数据分析结果（95%置信区间）又变成了：处理A（9.2，10.6），处理B（10.8，12.2），处理C（13.6，15.0），这时不论是处理C比较处理A还是处理B比较处理A我们都有了统计显著性的差异结果。结论就是，即使在最理想的试验设计及正确运用的条件下，NHST的结果直接取决于样本容量。第二个问题就是，即使采取了最合适的试验设计方案采集数据，还是有未能排除的混杂因素。比如，同样的农业试验搬到另一个地区/国家，或在不同的年份进行，结果肯定有变化，统计显著性的结论可能也跟着改变（更多的细节，请参看科学网—没有了“统计显著性”，p-值能干什么呢？ - 谢钢的博文 (sciencenet.cn)）。

更根本的问题在于，这样的试验结果能够一般性地推广到适用于过去，现在，及未来所有的同类状况吗？事实是我们无法针对过去与未来确定一个抽样总体，因此绝大部分现实生活中我们能得到的样本数据都无法满足统计抽样分布理论要求的基本条件，因此，其结论当然不能从统计推断的角度作一般化推广(generalization of statistical anaysis outcomes is not valid based on sampling distribution ground due to the violation of those fundamental assumption conditions)。但是，我们却可能从具体学科机理的角度，以描述性统计分析结果为基础作一般性推广的结论(我们的科学实验方案决定了用三种不同的化肥，在尽可能的试验设计的条件下，样本描述性统计分析结果(descriptive anaysis outcomes based on sample data)就是可获得的对统计总体的最佳估计量；并且，只有进行多次重复同样的试验，我们才能最终逐渐确立三种化肥的真实效果，没有捷径可走。基于任何一组样本数据进行统计假设检验根本不是获取科学发现普遍性规律的答案）。从这个经典的统计分析的例子我们可以清楚地看出NHST的不合理性。关于统计推断所依赖的抽样总体的根本局限性问题几十年前全面质量管理鼻祖（也是资深统计学家）爱德伍兹.戴明（Edwards Deming）早就指出了，有兴趣的同仁可参考“女士品茶”第24章，或这篇文章 “Assumptions for Statistical Inference” （1993）， Gerald J. Hahn and William Q. Meeker， The American Statistician , Vol. 47, No. 1， pp. 1-11，http://www.jstor.com/stable/2684774。其实，从逻辑上讲，不论是p-值，还是置信区间，都是连续型变量，把它们二分化分为“统计上显著的”或“统计上不显著的”就会产生无法自圆其说的矛盾。可叹的是，这么多年，连这个谁都否认不了的基本事实却在统计分析的实践中被几乎完全忽视，NHST依然大行其道。

更令人遗憾的是，有关的统计专业组织机构（例如各国的统计专业学会/协会）都不愿针对NHST这个顽疾作正式的论证或表态。直到2015年情况才出现了转机：2015年美国统计学会（ASA=American Statistical Association）关于p-值及统计显著性问题的专题小组会议最终形成了2016年ASA的就此问题发表的正式官方声明（对p-值的理解与应用的六项原则）。“六项原则声明” 的一个特点是读者被告知了很多‘不应该做什么’（Don’ts）的原则却没有提出更多的‘应该做什么’（Do’s）的原则建议。原因在于参与讨论形成该“六项原则声明”的专家组成员无法在‘应该做什么’的的原则建议方面达成更多的共识，但在‘不应该做什么’的共识是比较一致的。破旧的同时也必须立新，否则旧永远无法被破除。从这个着眼点出发，2017年10月ASA组织了一个历时两天的关于统计推断的专题研讨会，其结果就构成了2019年3月“美国统计学家 (TAS)”期刊卷73的专题特辑所发表的43文章的来由与基础。ASA 2016年的六项原则声明更多的是针对p-值的误解与误用的问题，其根本原因则在于‘统计显著性’这个支撑被广泛使用（滥用？）的统计假设检验的范式（Null Hypothesis Significance Test (NHST) paradigm）的核心概念。可以说，这次专题特辑所发表的43文章的主题就是“统计显著性”了。“美国统计学家 (TAS)”期刊卷73的专题特辑由一篇“编者的话”（Editorial：Moving to a World Beyond “p < 0.05”）起头对这次专题特辑所发表的43文章的观点提议作了概况总结。这篇“编者的话”的作者是：Ronald L. Wasserstein，Allen L. Schirm ，和 Nicole A. Liazar 。三人均为美国统计学会的当选院士会员(elected ASA fellow).其中Ronald L. Wasserstein从2007年起就一直担任ASA学会秘书长（Executive Director）的职务。他们认为可以得出这样的结论：“…，任何p-值都无法揭示/代表某个效应值的可能性、存在性、真实性，或重要性。所以，赋予或具有了一个统计显著性的标签并不意味着有关的关联值或效应值就是高度可能、真实、确实，或重要。同样的，一个非统计显著性的标签也并不意味着有关的关联值或效应值就是不可能、不存在、不真实，或不重要。然而，正是这种划分为‘显著’的与‘非显著’的二分做法被当作了能够确认/决定这些（是否可能、真实、确实，或重要）特性的权威认证。”“明确地说，这个问题不仅仅是关乎两个标签的问题。其（连续型统计量的）结果也不应该被三分化，或根本地说，不应该按照人为确定的p-值阀限值来划分为任何数量的组分/分类。类似地，我们也必须停止把置信区间作为另一个被二分处理的统计量的做法（根据无偏假设值是否落在置信区间内来判断）。并且，为防止同样的问题以其它的形式/面目再现，我们必须不去试图人为地按组分/分类来划分其它（连续型）统计量（比如贝叶斯因素）。”结论：应该彻底抛弃“统计显著性”(statistical significance)这个NHST的基石的概念。

可是少数这个专题特辑的作者对这样的总结结论十分不满。由2019年ASA当时的主席(Karen Kafadar)组织了一个专题/专责小组(task force group)试图再发表一个声明来“更正”在Moving to a World Beyond “p < 0.05”这篇“编者的话“中所总结概括的观点。2021年7月这个“更正”声明（The ASA President’s Task Force Statement on Statistical Significance and Replicability）终于发表了。奇怪的是，如同在黄河宁老师的有关博文中所指出的，这个“更正”声明并没有发表在ASA的自己的刊物“美国统计学家”上，而是发表在了Karen Kafadar做总编辑的The Annals of Applied Statistics（应用统计年鉴）上。这个“更正”声明共有十五位作者，其中不乏著名的统计学家，还有两个中国人的名字在其中。因此这个很短的声明也有中文版本（“ASA 主席关于统计显著性和可重复性的专责小组声明”被全文转载在科学网—“统计上是显著的” – 在做统计数据分析时请不要再这样说，也不要这样用了！ - 谢钢的博文 (sciencenet.cn)）。

如同在黄河宁老师的有关博文中所指出，已有同样权威的统计学家对此“更正”声明作了较全面的评论/反驳（详见：Megan Higgs 2021 Thoughts on the Task Force Statement https://critical-inference.com/thoughts-on-the-task-force-statement/）。我个人也对这样一个声明是十分不以为然的，我认为这完全是在NHST问题上统计学界的一个大倒退，只能给广大使用统计分析方法的科技工作者们带来更多的困惑。我的观察是：（1）这个“更正”声明的核心是强调“美国统计学家 (TAS)”期刊卷73的专题特辑的开篇文章“编者的话”（Editorial：Moving to a World Beyond “p < 0.05”）不能代表ASA的官方政策（英文原文a 2019 editorial in The American Statistician (an ASA journal) might be mistakenly interpreted as official ASA policy)。严格说这个说法没有错，但用同样的标准我们也可以说这份更正“声明”同样也不能被当作ASA的官方政策；（2）“声明”的这种说法让人听起来似乎“编者的话”这篇文章不过是代表了三位作者个人的观点/意见，这样的暗示有失公允。因“编者的话”这篇文章实际上是对“美国统计学家”期刊卷73特辑的所有43篇文章的一个总结/综述，三位作者不是吃饱饭没事自己找事揽了这个差事来做，完全是受ASA的正式委托完成了一件费时费力还可能不讨好的重大任务。这43篇文章是2017年ASA组织了一个历时两天的关于统计推断的专题研讨会的结果；而这个2017年的专题研讨会又是2016年ASA关于p-值与统计显著性问题的官方声明的后续产物。这些都不是“编者的话”的三位作者个人的决定或行为。另外，p-值的问题在2016年的声明中已有了共识与结论，43篇特刊文章与“编者的话”的关注点是统计显著性。而“声明”却硬是把‘p-值与统计显著性’扯在一起来谈，把它强加到“编者的话”这篇文章的头上。最后我还想就此“更正”声明中的一句话作个评论。该声明说“当需要做决策时,阈值是有帮助的。尽管p-值本身提供了有价值的信息,但将p-值与显着性水平进行匹配可能很有用。” 如果该声明的作者们还承认2016年ASA的正式官方声明（对p-值的理解与应用的六项原则）的话，“（当需要做决策时）p-值本身提供了有价值的信息，”这个说法显然言过其实；已有很多的理论证明及无数的经验证据都指向一个事实：将p-值与显着性水平进行匹配得出的统计推断结果可能有用，也可能无用，更多的时候是误导科学结论的推导。有兴趣的同仁可把以下这两篇文章读一读（均取自“美国统计学家 (TAS)”期刊卷73的专题特辑）就会发现我的这句话是有根据的：（1）Raymond Hubbard, Brian D. Haig, and Rahul A. Parsa (2019), The Limited Role of Formal Statistical Inference in Scientific Inference, The American Statistician, Vol. 73, No. S1, 91-98；（2）Christopher Tong (2019), Statistical Inference Enables Bad Science; Statistical Thinking Enables Good Science, The American Statistician, Vol. 73, No. S1, 246-261.

根据中文网上资料，中国统计学会现有个人会员约5000人。全球历史最悠久的统计学会/协会组织应该是英国的皇家统计学会Royal Statistical Society (RSS)，按维基百科的信息显示，RSS成立于1834年，现有约10000名会员，其中1500为经专业资格认证的Chartered Statistician(CStat)。美国统计学会/协会American Statistical Association (ASA)成立于1839年（只比RSS晚了几年而已），现有会员约18000人，其中每年会选出最多不超过千分之3.3 的所谓的Fellow member（我译作了‘当选院士会员’）。ASA2019年的特刊“编者的话”的三名作者均为ASA的Fellow member。我们可以发现这样一个事实：美国统计学会在2016年、2019年、及2021年先后三次就p-值与统计显著性这个关乎统计学理论与实践的重大问题做出了正式的声明/表态/回应。相比之下，英国皇家统计学会至今未对这个可以说是对科学事业有着重大且急迫威胁的问题做出任何实质性的声明。

转载本文请联系原作者获取授权，同时请注明本文来自谢钢科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3503579-1327602.html

上一篇：仅仅两个月时间澳洲新冠确诊累计人数从30万飙升至310万
下一篇：双样本t-检验连最简单的实际问题都无法给出一个结论性的答案

收藏 IP: 49.187.152.*| 热度|

JohnXie的个人博客分享 http://blog.sciencenet.cn/u/JohnXie

博文

统计显著性问题的历史由来及最新进展

当前推荐数：10 推荐人：杨正瓴 檀成龙 李宏翰 周忠浩 王安良 黄河宁 宁利中 汪运山 何应林 李毅伟

该博文允许注册用户评论请点击登录评论 (5 个评论)

谢钢

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

JohnXie的个人博客分享 http://blog.sciencenet.cn/u/JohnXie

博文

统计显著性问题的历史由来及最新进展

当前推荐数：10 推荐人： 杨正瓴 檀成龙 李宏翰 周忠浩 王安良 黄河宁 宁利中 汪运山 何应林 李毅伟

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

谢钢

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：10 推荐人：杨正瓴檀成龙李宏翰周忠浩王安良黄河宁宁利中汪运山何应林李毅伟

该博文允许注册用户评论请点击登录评论 (5 个评论)