heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

p值统治时代结束,信号指数(SCI)能够填补部分“权力”真空吗?

已有 2784 次阅读 2020-7-22 11:53 |个人分类:统计推断与概率|系统分类:论文交流

一、p值统治时代的结束出现了“权力”真空

p值是假设检验(比如t-检验、F-检验等等)的重要成果p<0.05长期以来一直作为判断统计显著性的标准。因此p在经典统计推断中占据统治地位。然而事实上,几十年来学术界对假设检验一直有很大的争议。比如ZiliakMcCloskey2008年出版了一本专著论述假设检验无效,并且是错误的 (Ziliak and McCloskey 2008)最近几年来,学假设检验和置信区提出越来越重的疑,是因科学研究上的多新发现认为假阳性false positive results),无法被重复试验证实,称之可重复性危机” (replication crisis)。一些学者认为假设检验和置信区用或者用是造成可重复性危机的主要原因之一2015年初,心理学期刊《Basic and Applied Social Psychology》正式禁止使用假设检验和置信区间 (Trafimow and Marks 2015)。Amrhein, Greenland, and McShane (2019)则建议假设检验“退休”。 2016年,美国统计协会(ASA)发布了一则关于p的正式声明(Wasserstein and Lazar 2016)。随着假设检验受到严峻的挑战,p值的统治时代已经结束(Halsey 2019),这意味着学术界将迎来一个后p<0.05时代(Wasserstein, Schirm, and Lazar 2019)

p值统治时代的结束出现了“权力”真空(Halsey 2019) Halsey (2019)论述了有可能替代p值的几种统计量以用来填补“权力”真空,包括置信区间、贝叶斯因子、赤池信息准则(AIC)然而统计量都有局限性。比如置信区间和p值的计算基于相同的数学框架,其推断结果基本是等价的。所以Basic and Applied Social Psychology》同禁止使用假设检验和置信区 那么有没有其它好的统计量来替代p

image.png


image.png

三、算例:两个厂家

采用Roberts (1964) 出的一个算例来展示两个样本差异性信号指数的实际应用。厂家A提供了根据9本得到的使用寿命统计数据;厂家B提供了根据4本得到的使用寿命统计数据(1)。我们要根据这些数据来选择使用寿命较长品:厂家A或者厂家B显然这是一个经典的Behrens-Fisher问题。

1. 两个厂家本的统计数据

厂家

样本容量

均值 (hours)

标准差 (hours)

SSE (hour2)

A

9

42

7.48

1758

B

4

50

6.87

2490

注:SSE (sample signal energy)样本信号能量

Roberts (1964) 采用了假定体方差相同的t检验,其表明0.1著性水平下两个厂家的量没著性差异。因此选择厂家A或者厂家B品都可以。Jaynes (1976)认为Roberts (1964)的推断是无效的,因根据常就可以判断厂家B量好于厂家A应该选择厂家B品。Jaynes (1976)采用了一种叶斯分析方法,其表明92%的概率厂家B品的使用寿命厂家A品的使用寿命要个分析果与相一致

笔者首先采用了Welch近似t检验。得到t=1.9568, 有效自由度=6, p=0.0981>0.05。因此在0.05著性水平下两个厂家的量没著性差异。

笔者接着计算了两个样本差异性信号指数。得到信号指数=0.74,表明两个厂家的量有比的差异。而厂家B样本信号能量SSE=2490,远大于厂家A样本信号能量SSE=1758。因此应该选择厂家B品。个分析果与Jaynes (1976)叶斯分析果和常相一致。

四、小

p值统治时代的结束意味着学术界将迎来一个后p<0.05时代。而因此形成的 “权力”真空需要由其它统计量来填补。置信区间、贝叶斯因子、赤池信息准则(AIC) 信号指数都有可能成为替代p统计量。寻求较好的统计量替代p成为近年来统计学界的一个热门研究课题。

参考文献

Amrhein V, Greenland S, and McShane B 2019 Retire statistical significance Nature 567 305-307

Halsey L G 2019 The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? Biology Letters 15: 20190174 https://doi.org/10.1098/rsbl.2019.0174


Huang H 2019  Signal content index (SCI): a measure of the effectiveness of measurements and an alternative to p-value for comparing two means. Measurement Science and Technology, https://doi.org/10.1088/1361-6501/ab46fd.  ResearchGate链接: https://www.researchgate.net/publication/335996439_Signal_content_index_SCI_A_measure_of_the_effectiveness_of_measurements_and_an_alternative_to_p_-value_for_comparing_two_means


Jaynes E T 1976 Confidence intervals vs Bayesian intervals in Foundations of Probability Theory, Statistical Inference and Statistical Theories of Science, eds. Harper and Hooker, Vol. II, 175-257,  D. Reidel Publishing Company Dordrecht-Holland


Roberts N A 1964 Mathematical Methods in Reliability Engineering McGraw-Hill Book Co. Inc. New York

Trafimow D and Marks M 2015  Editorial Basic and Applied Social Psychology 37 1-2


Wasserstein R L and Lazar N A 2016 The ASA's statement on p-values: context, process, and purpose, The American Statistician 70 129-133 DOI:10.1080/00031305.2016.1154108


Wasserstein R L, Schirm A L, and Lazar N A 2019 Moving to a world beyond “p < 0.05” The American Statistician 73:sup1 1-19 DOI: 10.1080/00031305.2019.1583913


Ziliak S T and McCloskey D N 2007 The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives University of Michigan Press




https://wap.sciencenet.cn/blog-3427112-1243084.html

上一篇:神奇的声学多普勒流速剖面仪(ADCP )
下一篇:测量不确定度分析中的Ballico悖论及其消解
收藏 IP: 104.63.253.*| 热度|

7 檀成龙 宁利中 杨正瓴 张鹰 苏保霞 王安良 李宏翰

发表评论 评论 (7 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 22:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部