||
一、为什么要进行统计学改革?
统计显著性检验(例如t检验)及其产生的p值是科学研究中广泛使用的统计推断方法。但是这种推断方法长期以来饱受争议。争议的焦点之一是在统计显著性检验范式下,“统计显著性”代表“科学显著性”,因此误导科学家关注“统计显著性”并依赖二分法来评定统计显著性。例如,通常将p 值<0.05作为判定统计显著性的标准。p 值<0.05成为学术期刊接受和发表论文的“金标准”。
最近十几年来,人们发现许多学术期刊发表的科学研究成果无法在后来的试验中得到验证,造成对科学研究成果可信度的质疑,这被称为“可重复性危机”。许多科学家认为显著性检验是造成“可重复性危机”的主要原因之一,并且认为显著性检验范式在哲学上和方法论上是错误的。因此,一些科学家(改革派)呼吁彻底放弃统计显著性概念和显著性检验。例如,2019年3月,800多位学者在《自然》上联名呼吁‘抛弃整个统计显著性概念’【1】。《美国统计学家》2019 年特刊“21 世纪的统计推断”的社论宣称 “现在是完全停止使用‘统计显著性’一词的时候了”【2】。科学网谢钢博主发表了一系列博文【3-8】阐述统计显著性检验的历史渊源和问题所在。
其实,在“可重复性危机”被广泛关注之前很多年就有一些学者质疑统计显著性检验,并且呼吁对统计学以及统计实践进行改革(例如【9】)。统计学改革 (statistics reform) 又称为“统计改革” (statistical reform)。根据ChatGPT:“统计改革”一词或许并非源于某个单一创始人,但是Fidler and Cumming (2007)【9】在将其命名、构建和分析作为一项有组织的学术和方法论努力方面发挥了关键作用。他们是首批在同行评议文献中正式化该术语并将其作为一场跨学科的改革运动进行讨论的学者。2012年,统计学改革的主要倡导者 Cumming 提出了“新统计学”的概念【10】。
二、统计学改革是 “破旧立新”的“范式转变”
(1) “破旧”— 放弃统计显著性检验范式
放弃统计显著性检验范式需要从学术期刊做起。Hurlbert等人【11】建议:“…[在]科学文献中不允许使用“统计显著性”一词及其所有同源词和象征性附属词,除非重点放在统计学历史及其哲学和方法论上。” 心理学期刊《Basic and Applied Social Psychology》于2015年起正式禁止使用显著性检验和置信区间 【12】。最近,European Journal of Physiotherapy 《欧洲理疗学报》发表了一篇社论【13】告知研究人员一些属于国际理疗期刊编辑协会 (ISPJE) 成员的理疗期刊将期望论文手稿使用估计方法而不是零假设统计检验。也就是说,《欧洲理疗学报》已经非正式地禁止论文作者使用显著性检验。
(2)“立新”— 采用效应量估计范式
与显著性检验范式相反,效应量估计范式引导科学家关注“科学显著性”,根据效应量估计和专业知识进行科学推断。
“范式转变”需要重新编写和出版统计学教科书,编写和发行新的统计分析软件。这些工作已经在进行。例如,中山大学生命科学学院张文军教授发表了多篇关于统计学改革的论文和实施新统计学的软件【14-19】。张文军教授呼吁“… 除了尽快编写、出版和采用新的统计学著作和教材外,还必须根据新统计学修订和发行新版本的各种统计软件以供使用。” 张文军教授的软件成果标志着统计学改革(范式转变)已经突破长期仅限于哲学论战的局面,进入实行阶段。
笔者在最近发表的一篇“观察”文章【20】中重点讨论了两种源自t分布的方法:双样本 t 检验和用于测量不确定度计算的 t 区间方法,阐述了为什么这两种方法都应该被摒弃,并建议使用“高级估计统计学”(advanced estimation statistics) 代替双样本t检验,使用无偏估计法代替t区间法。
三、统计学改革将是一场持久的运动
统计学改革(范式转变)无疑是统计学界乃至科学界进入21 世纪以来面临的最大挑战之一。尽管统计学改革的呼声由来已久,“… 实现改革被证明十分困难【3】。” 改革的阻力来自于保守派,他们强烈反对放弃显著性检验范式(例如【21、22】)。保守派不承认显著性检验范式在哲学上和方法论上是错误的,他们认为问题是科学家和实际工作者对显著性检验方法及其p-值的误解和误用造成的。因此,保守派希望通过加强统计学教育来解决问题。然而,笔者认为,加强统计学教育不可能解决所谓误解和误用的问题。显著性检验和 p 值作为大学统计学课程的标准内容已经将近一个世纪了。试想一下:如果受过良好统计学教育的一些专家也不能正确理解和使用显著性检验和 p 值,怎么能够指望加强统计学教育可以消除一般学者对显著性检验和p-值的误解和误用呢?
根据笔者的观察,提倡统计学改革(范式转变)的“改革派”主要由一些科学家组成,包括经济学家、心理学家、生理学家、动物学家、生命科学家、临床流行病学家、和生态学家。他们是使用统计方法的实际工作者。相反,捍卫显著性检验范式的“保守派”主要由一些统计学家和教授组成。例如,15位统计学家和统计学教授共同撰写了一篇捍卫显著性检验范式的论文【21】。“保守派”的统计学家和教授的主要工作是教授统计学,他们大多不是使用统计方法的实际工作者。因此,对于是否有必要进行统计学改革,科学家和实际工作者应该比统计学家和教授更有发言权。
库恩【23】指出:“科学共同体曾一再地转向新范式,尽管这种转变有时要花一代人的时间。”因此,统计学改革(范式转变)对于改革派来说任重而道远。
参考文献及相关链接:
【1】Scientists rise up against statistical significance, https://www.nature.com/articles/d41586-019-00857-9
【2】 Wasserstein, R. L., Schirm, A. L., and Lazar, N. A. (2019). Editorial: Moving to a World Beyond “p < 0.05”, The American Statistician, Vol. 79. https://www.tandfonline.com/doi/full/10.1080/00031305.2019.1583913
【3】谢钢(2025)揭穿目前数据分析应用最流行的统计假设检验范式(NHST)伪科学的真面目, 科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3503579&do=blog&id=1483274
【4】谢钢(2025)三分钟说清楚为什么现行的统计假设检验范式是站不住脚的伪科学方法, 科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3503579&do=blog&id=1482647
【5】谢钢(2023)您还认为‘统计假设检验’是科学的数据分析方法吗?科学网,https://blog.sciencenet.cn/blog-3503579-1370374.html
【6】谢钢(2022)寻找‘显著性差异’还是‘显著性相同’- 这是科学研究方法的根本性问题, 科学网,https://blog.sciencenet.cn/blog-3503579-1339495.html
【7】谢钢(2022)统计显著性问题的历史由来及最新进展, 科学网,https://blog.sciencenet.cn/blog-3503579-1327602.html
【8】谢钢(2022)统计上是显著的” – 在做统计数据分析时请不要再这样说,也不要这样用了!科学网,https://blog.sciencenet.cn/blog-3503579-1324675.html
【9】Fidler, F. and Cumming, G. (2007). Lessons learned from statistical reform efforts in other disciplines. Psychology in the Schools 44 441-449
【10】Cumming, G. (2014). The New Statistics: Why and How. Psychological Science 25, 7–29
【11】Megan Higgs 2021 Thoughts on the Task Force Statement https://critical-inference.com/thoughts-on-the-task-force-statement/
【12】Trafimow D and Marks M 2015 Editorial Basic and Applied Social Psychology 37, 1-2
【13】“Statistical inference through estimation: recommendations from the International Society of Physiotherapy Journal Editors”, European Journal of Physiotherapy, (2022) 24:3, 129-133, DOI: 10.1080/21679169.2022.2073991https://www.tandfonline.com/doi/epdf/10.1080/21679169.2022.2073991?needAccess=true&role=button
【14】Zhang, W. J. (张文军) (2022). Dilemma of t-tests: Retaining or discarding choice and solutions (t 检验的困境:保留或放弃的选择和解决方案), Computational Ecology and Software, 12(4): 181-194 . https://www.researchgate.net/publication/361510115_Dilemma_of_t-tests_Retaining_or_discarding_choice_and_solutions
【15】Zhang, W. J. (张文军)(2022). Confidence intervals: Concepts, fallacies, criticisms, solutions and beyond (置信区间:概念、谬误、批评、解决方案及其它), Network Biology, 12(3): 97-115. https://www.researchgate.net/publication/361266357_Confidence_intervals_Concepts_fallacies_criticisms_solutions_and_beyond
【16】Zhang, W. J. (张文军)(2023). A desktop calculator for effect sizes: Towards the new statistics, Computational Ecology and Software, 13(4): 136-181.
【17】Zhang, W. J. (张文军)(2024). MetaAnaly: The platform-independent computational tool for meta-analysis in the paradigm of new statistics. Network Biology, 14(2): 187-214.
【18】Zhang, W. J. (张文军)(2024). ANOVA-nSTAT: ANOVA methodology and computational tools in the paradigm of new statistics, Computational Ecology and Software, 2024, 14(1): 48-67.
【19】Zhang, W. J. (张文军)(2024). SampSizeCal: The platform-independent computational tool for sample sizes in the paradigm of new statistics, Network Biology, 2024, 14(2): 100-155.
【20】Huang, H. (2025). Statistics Reform: Practitioner’s Perspective. AppliedMath, 5(2), 49. https://doi.org/10.3390/appliedmath5020049
【21】The ASA President’s Task Force Statement on Statistical Significence and Replicabilityhttps://errorstatistics.files.wordpress.com/2021/06/presidents-task-force-statement.pdf
【22】Karen Kafdar 2021 Statistical significance, p-values, and replicability
https://errorstatistics.files.wordpress.com/2021/06/kafadar-editorial-2021.pdf
【23】库恩,《科学革命的结构》,第四版,金吾伦、胡新和译,北京大学出版社,2003年。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-2 16:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社