博文

p值统治时代结束，信号指数(SCI)能够填补部分“权力”真空吗？

已有 2784 次阅读 2020-7-22 11:53 |个人分类:统计推断与概率|系统分类:论文交流

一、p值统治时代的结束出现了“权力”真空

p值是假设检验（比如t-检验、F-检验等等）的重要成果。p<0.05长期以来一直作为判断统计显著性的标准。因此p值在经典统计推断中占据统治地位。然而事实上，几十年来学术界对假设检验一直有很大的争议。比如Ziliak和McCloskey于2008年出版了一本专著论述假设检验无效，并且是错误的 (Ziliak and McCloskey 2008)。最近几年来，学术界对假设检验和置信区间理论提出越来越严重的质疑，这是因为科学研究上的许多新发现被认为是“假阳性”（false positive results），无法被重复试验所证实，称之为“可重复性危机” (replication crisis)。一些学者认为，假设检验和置信区间的应用或者滥用是造成“可重复性危机”的主要原因之一。2015年初，心理学期刊《Basic and Applied Social Psychology》正式禁止使用假设检验和置信区间 (Trafimow and Marks 2015)。Amrhein, Greenland, and McShane (2019)则建议假设检验“退休”。 2016年，美国统计协会（ASA）发布了一则关于p值的正式声明（Wasserstein and Lazar 2016)。随着假设检验受到严峻的挑战，p值的统治时代已经结束(Halsey 2019)，这意味着学术界将迎来一个后p<0.05时代(Wasserstein, Schirm, and Lazar 2019)。

p值统治时代的结束出现了“权力”真空(Halsey 2019) 。Halsey (2019)论述了有可能替代p值的几种统计量以用来填补“权力”真空，包括置信区间、贝叶斯因子、赤池信息准则(AIC)。然而这些统计量都有局限性。比如置信区间和p值的计算基于相同的数学框架，其推断结果基本是等价的。所以《Basic and Applied Social Psychology》同时禁止使用假设检验和置信区间。那么有没有其它较好的统计量来替代p值？

三、算例：两个厂家产品质量评估

我们采用Roberts (1964) 给出的一个算例来展示两个样本差异性信号指数的实际应用。厂家A提供了根据9个产品样本得到的使用寿命统计数据；厂家B提供了根据4个产品样本得到的使用寿命统计数据（见表1）。我们要根据这些数据来选择使用寿命较长的产品：厂家A或者厂家B。显然这是一个经典的Behrens-Fisher问题。

表1. 两个厂家产品样本的统计数据

厂家	样本容量	均值 (hours)	标准差 (hours)	SSE (hour²)
A	9	42	7.48	1758
B	4	50	6.87	2490

注：SSE (sample signal energy)为样本信号能量

Roberts (1964) 采用了假定总体方差相同的t检验，其结果表明在0.1的显著性水平下两个厂家的产品质量没有显著性差异。因此选择厂家A或者厂家B的产品都可以。Jaynes (1976)则认为Roberts (1964)的推断是无效的，因为根据常识就可以判断厂家B的产品质量好于厂家A的产品，应该选择厂家B的产品。Jaynes (1976)采用了一种贝叶斯分析方法，其结果表明有92%的概率厂家B产品的使用寿命比厂家A产品的使用寿命要长。这个分析结果与常识相一致。

笔者首先采用了Welch近似t检验。得到t=1.9568, 有效自由度=6, p=0.0981>0.05。因此在0.05的显著性水平下两个厂家的产品质量没有显著性差异。

笔者接着计算了两个样本差异性信号指数。得到信号指数=0.74，表明两个厂家的产品质量有比较大的差异。而厂家B产品的样本信号能量SSE=2490，远大于厂家A产品的样本信号能量SSE=1758。因此应该选择厂家B的产品。这个分析结果与Jaynes (1976)的贝叶斯分析结果和常识相一致。

四、小结

p值统治时代的结束意味着学术界将迎来一个后p<0.05时代。而因此形成的 “权力”真空需要由其它统计量来填补。置信区间、贝叶斯因子、赤池信息准则(AIC)、信号指数都有可能成为替代p值的统计量。寻求较好的统计量替代p值成为近年来统计学界的一个热门研究课题。

参考文献

Amrhein V, Greenland S, and McShane B 2019 Retire statistical significance Nature 567 305-307

Halsey L G 2019 The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? Biology Letters 15: 20190174 https://doi.org/10.1098/rsbl.2019.0174

Huang H 2019 Signal content index (SCI): a measure of the effectiveness of measurements and an alternative to p-value for comparing two means. Measurement Science and Technology, https://doi.org/10.1088/1361-6501/ab46fd. ResearchGate链接: https://www.researchgate.net/publication/335996439_Signal_content_index_SCI_A_measure_of_the_effectiveness_of_measurements_and_an_alternative_to_p_-value_for_comparing_two_means

Jaynes E T 1976 Confidence intervals vs Bayesian intervals in Foundations of Probability Theory, Statistical Inference and Statistical Theories of Science, eds. Harper and Hooker, Vol. II, 175-257, D. Reidel Publishing Company Dordrecht-Holland

Roberts N A 1964 Mathematical Methods in Reliability Engineering McGraw-Hill Book Co. Inc. New York

Trafimow D and Marks M 2015 Editorial Basic and Applied Social Psychology 37 1-2

Wasserstein R L and Lazar N A 2016 The ASA's statement on p-values: context, process, and purpose, The American Statistician 70 129-133 DOI:10.1080/00031305.2016.1154108

Wasserstein R L, Schirm A L, and Lazar N A 2019 Moving to a world beyond “p < 0.05” The American Statistician 73:sup1 1-19 DOI: 10.1080/00031305.2019.1583913

Ziliak S T and McCloskey D N 2007 The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives University of Michigan Press

转载本文请联系原作者获取授权，同时请注明本文来自黄河宁科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3427112-1243084.html

上一篇：神奇的声学多普勒流速剖面仪（ADCP ）
下一篇：测量不确定度分析中的Ballico悖论及其消解

收藏 IP: 104.63.253.*| 热度|

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

p值统治时代结束，信号指数(SCI)能够填补部分“权力”真空吗？

当前推荐数：7 推荐人：檀成龙 宁利中 杨正瓴 张鹰 苏保霞 王安良 李宏翰

发表评论评论 (7 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

p值统治时代结束，信号指数(SCI)能够填补部分“权力”真空吗？

当前推荐数：7 推荐人： 檀成龙 宁利中 杨正瓴 张鹰 苏保霞 王安良 李宏翰

发表评论 评论 (7 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：7 推荐人：檀成龙宁利中杨正瓴张鹰苏保霞王安良李宏翰

发表评论评论 (7 个评论)