heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

统计学改革:任重而道远

已有 888 次阅读 2025-7-29 11:10 |个人分类:观点与讨论|系统分类:观点评述

一、为什么要进行统计学改革?

统计显著性检验(例如t检验)及其产生的p值是科学研究中广泛使用的统计推断方法。但是这种推断方法长期以来饱受争议。争议的焦点之一是在统计显著性检验范式下,统计显著性”代表“科学显著性”,因此误导科学家关注“统计显著性”并依赖二分法来评定统计显著性。例如,通常将<0.05作为判定统计显著性的标准。<0.05成为学术期刊接受和发表论文的“金标准”

最近十几年来,人们发现许多学术期刊发表的科学研究成果无法在后来的试验中得到验证,造成对科学研究成果可信度的质疑,这被称为“可重复性危机”。许多科学家认为显著性检验是造成“可重复性危机”的主要原因之一,并且认为显著性检验范式在哲学上和方法论上是错误的。因此,一些科学家(改革派)呼吁彻底放弃统计显著性概念和显著性检验。例如,2019年3月,800多位学者在《自然》上名呼吁‘抛弃整个统计显著性概念’【1】。《美国统计学家》2019 年特刊“21 统计推断”的社宣称 在是完全停止使用‘统计显著性’一候了”【2】科学网谢钢博主发表了一系列博文【3-8】阐述统计显著性检验的历史渊源和问题所在。

其实,在可重复性危机”被广泛关注之前很多年就有一些学者质疑统计显著性检验,并且呼吁对统计学以及统计实践进行改革(例如9】)统计学改革 (statistics reform) 又称为统计改革” (statistical reform)。根据ChatGPT:“统计改革”一词或许并非源于某个单一创始人,但是Fidler and Cumming (2007)9】在将其命名、构建和分析作为一项有组织的学术和方法论努力方面发挥了关键作用。他们是首批在同行评议文献中正式化该术语并将其作为一场跨学科的改革运动进行讨论的学者。2012年,统计学改革的主要倡导者 Cumming 提出了“新统计学”的概念【10】。

二、统计学改革是 “破旧立新”的“范式转变”

(1)   “破旧”— 放弃统计显著性检验范式

放弃统计显著性检验范式需要从学术期刊做起。Hurlbert等人【11】建议:“…[在]科学文献中不允许使用“统计显著性”一词及其所有同源词和象征性附属词,除非重点放在统计学历史及其哲学和方法论上。” 心理学期刊《Basic and Applied Social Psychology》于2015年起正式禁止使用显著性检验置信区间 【12】最近,European Journal of Physiotherapy 《欧洲理疗学报》发表了一篇社论【13】告知研究人一些属于国期刊编辑协 (ISPJE) 的理期刊将期望文手稿使用估方法而不是零假设统计检验。也就是说,《欧洲理疗学报》已经非正式地禁止论文作者使用显著性检验。

(2)“立新”— 采用效应量估计范式

与显著性检验范式相反,效应量估计范式引导科学家关注“科学显著性”,根据效应量估计和专业知识进行科学推断。 

“范式转变需要重新编写和出版统计学教科书,编写和发行新的统计分析软件。这些工作已经在进行。例如,中山大学生命科学学院张文军教授发表了多篇关于统计学改革论文和实施新统计学【14-19】。张文军教授呼吁“ 除了尽快写、出版和采用新的统计学著作和教材外,根据新统计学修行新版本的各种统计软件以供使用。” 张文军教授的软件成果标志着统计学改革(范式转变)已经突破长期仅限于哲学论战的局面,进入实行阶段。 

笔者在最近发表的一篇“观察”文章【20】中重点讨论了两种源自t分布的方法:双样本 t 检验和用于测量不确定度计算的 t 区间方法,阐述了为什么这两种方法都应该被摒弃,并建议使用“高级估计统计学”(advanced estimation statistics) 代替双样本t检验,使用无偏估计法代替t区间法。

三、统计学改革将是一场持久的运动

统计学改革(范式转变)无疑是统计学界乃至科学界进入21 世纪以来面临的最大挑战之一。尽管统计学改革的呼声由来已久,“… 实现改革被明十分困难【3】。” 改革的阻力来自于保守派,他们强烈反对放弃显著性检验范式(例如【21、22】)。保守派不承认显著性检验范式在哲学上和方法论上是错误的,他们认为问题是科学家和实际工作者对显著性检验方法及其p-值的误解和误用造成的。因此,保守派希望通过加强统计学教育来解决问题。然而,笔者认为,加强统计学教育不可能解决所谓误解和误用的问题。显著性检验和 p 值作为大学统计学课程的标准内容已经将近一个世纪了。试想一下:如果受过良好统计学教育的一些专家也不能正确理解和使用显著性检验和 p 值,怎么能够指望加强统计学教育可以消除一般学者对显著性检验p-值的误解和误用呢?

根据笔者的观察,提倡统计学改革(范式转变)的“改革派”主要由一些科学家组成,包括经济学家、心理学家、生理学家、动物学家、生命科学家、临床流行病学家、和生态学家。他们是使用统计方法的实际工作者。相反,捍卫显著性检验范式的“保守派”主要由一统计学家和教授组成。例如,15位统计学家和统计学教授共同撰写了一篇捍卫显著性检验范式的论文【21】。“保守派”的统计学家和教授的主要工作是教授统计学,他们大多不是使用统计方法的实际工作者。因此,对于是否有必要进行统计学改革,科学家和实际工作者应该比统计学家和教授更有发言权。

库恩23指出:“科学共同体曾一再地转向新范式,尽管这种转变有时要花一代人的时间。因此,统计学改革(范式转变)对于改革派来说任重而道远。

参考文献及相关链接:

【1】Scientists rise up against statistical significance, https://www.nature.com/articles/d41586-019-00857-9

【2】 Wasserstein, R. L., Schirm, A. L., and Lazar, N. A. (2019). Editorial: Moving to a World Beyond “p < 0.05”, The American Statistician, Vol. 79. https://www.tandfonline.com/doi/full/10.1080/00031305.2019.1583913

3】谢钢(2025)揭穿目前数据分析应用最流行的统计假设检验范式(NHST)伪科学的真面目科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3503579&do=blog&id=1483274

4】谢钢(2025)三分钟说清楚为什么现行的统计假设检验范式是站不住脚的伪科学方法科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3503579&do=blog&id=1482647

5】谢钢(2023)您还认为统计假设检验是科学的数据分析方法吗?科学网,https://blog.sciencenet.cn/blog-3503579-1370374.html

6】谢钢(2022)寻找显著性差异还是显著性相同’- 这是科学研究方法的根本性问题, 科学网,https://blog.sciencenet.cn/blog-3503579-1339495.html

7】谢钢(2022)统计显著性问题的历史由来及最新进展, 科学网,https://blog.sciencenet.cn/blog-3503579-1327602.html

8】谢钢(2022)统计上是显著的” – 在做统计数据分析时请不要再这样说,也不要这样用了!科学网,https://blog.sciencenet.cn/blog-3503579-1324675.html

【9】Fidler, F. and Cumming, G. (2007). Lessons learned from statistical reform efforts in other disciplines. Psychology in the Schools 44 441-449

【10】Cumming, G. (2014). The New Statistics: Why and How. Psychological Science 25, 7–29

【11】Megan Higgs 2021 Thoughts on the Task Force Statement https://critical-inference.com/thoughts-on-the-task-force-statement/

【12】Trafimow D and Marks M 2015  Editorial Basic and Applied Social Psychology 37, 1-2

【13】“Statistical inference through estimation: recommendations from the International Society of Physiotherapy Journal Editors”European Journal of Physiotherapy, (2022) 24:3, 129-133, DOI: 10.1080/21679169.2022.2073991https://www.tandfonline.com/doi/epdf/10.1080/21679169.2022.2073991?needAccess=true&role=button

【14】Zhang, W. J. (张文军) (2022). Dilemma of t-tests: Retaining or discarding choice and solutions (t 检验的困境:保留或放弃的选择和解决方案)Computational Ecology and Software, 12(4): 181-194 . https://www.researchgate.net/publication/361510115_Dilemma_of_t-tests_Retaining_or_discarding_choice_and_solutions

【15】Zhang, W. J. (张文军)(2022). Confidence intervals: Concepts, fallacies, criticisms, solutions and beyond 置信区间:概念、谬误、批评、解决方案及其它), Network Biology, 12(3): 97-115.  https://www.researchgate.net/publication/361266357_Confidence_intervals_Concepts_fallacies_criticisms_solutions_and_beyond

【16】Zhang, W. J. (张文军)(2023). A desktop calculator for effect sizes: Towards the new statistics, Computational Ecology and Software, 13(4): 136-181.

【17】Zhang, W. J. (张文军)(2024). MetaAnaly: The platform-independent computational tool for meta-analysis in the paradigm of new statistics. Network Biology, 14(2): 187-214.

【18】Zhang, W. J. (张文军)(2024). ANOVA-nSTAT: ANOVA methodology and computational tools in the paradigm of new statistics, Computational Ecology and Software, 2024, 14(1): 48-67.

【19】Zhang, W. J. (张文军)(2024). SampSizeCal: The platform-independent computational tool for sample sizes in the paradigm of new statistics, Network Biology, 2024, 14(2): 100-155.

【20】Huang, H. (2025). Statistics Reform: Practitioner’s Perspective. AppliedMath5(2), 49. https://doi.org/10.3390/appliedmath5020049

【21】The ASA President’s Task Force Statement on Statistical Significence and Replicabilityhttps://errorstatistics.files.wordpress.com/2021/06/presidents-task-force-statement.pdf

【22】Karen Kafdar 2021 Statistical significance, p-values, and replicability

https://errorstatistics.files.wordpress.com/2021/06/kafadar-editorial-2021.pdf

23】库恩,《科学革命的结构》,第四版,金吾伦、胡新和译,北京大学出版社,2003年。



https://wap.sciencenet.cn/blog-3427112-1495650.html

上一篇:“信息度理论”论文正式发表上线
收藏 IP: 104.63.253.*| 热度|

14 刘永红 宁利中 孙颉 王涛 张学文 池德龙 崔锦华 高宏 曾纪晴 周忠浩 杨正瓴 杜学领 尤明庆 刘跃

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-8-2 16:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部