笔者于去年12月在ResearchGate上发起了一个讨论:“Does the two-sample t-test provide a valid solution to practical problems?” (双样本t-检验能够解决实际问题吗?),引发了激烈的网上辩论,堪称统计学江湖上一场“华山论剑”。在将近三个月的时间中,来自德国、美国、波兰、土耳其、法国、意大利、南非、澳大利亚、尼日利亚、阿尔及利亚、博茨瓦纳等国家的16位学者参与了这场“华山论剑”,发表跟帖评论159篇,访问量近2000。
以德国统计学家Jochen Wilhelm、法国统计学家Emmanuel Curis、和美国统计学家Salvatore S. Mangiafico为代表的学者坚持传统的假设检验范式。他们的主要观点是: t-检验和p-值是有用的“工具”;假设检验不存在方法论上的缺陷。他们甚至认为p-值不存在不确定性(这使笔者大为惊讶)。但是他们承认假设检验和p-值经常被误解或者滥用,因此应该加强统计学教育,促进使用者正确理解假设检验和p-值。
笔者赞同放弃传统的假设检验范式,用“估计范式”取代假设检验范式【1】。笔者的主要观点是:t-检验和p-值存在方法论上的固有缺陷:t-值和p-值是样本量的函数,因此t-检验不能够自洽; t-检验不能够对实际问题提供有效的解决方案。 另外,笔者认为p-值存在不确定性,因为p-值是样本统计量,即随机变量。
辩论的双方各持己见,谁也无法说服对方。双方除了同意 p 值经常被误解之外无法对其它问题达成共识。然而笔者对此并不感到意外。因为辩论中的双方承诺于两种不同的范式:假设检验范式和估计范式。这两种范式本质上是不可通约的,因为(1)对问题的设置不同,(2)没有共同的推理准则。但是毋庸置疑的事实是,经过近 100 年的教育、推广和应用,假设检验现在正面临着最严峻的挑战。 Berner 和 Amrhein 【2】最近指出: “从零假设显著性检验范式的转变似乎正在进行中。”
这场“华山论剑”恰逢ChatGPT风靡全球。笔者也赶时髦与ChatGPT聊了聊p-值。笔者首先询问ChatGPT是否了解p-值。ChatGPT回答“yes”并且给出了p-值的定义。笔者接着问p-值是否存在不确定性。ChatGPT回答“p-值当然存在不确定性,因为p-值是基于样本计算的,会随机变化。”笔者进而问如何量化p-值的不确定性。ChatGPT回答可以采用蒙特卡洛模拟、bootstrapping、以及贝叶斯方法估计。笔者要求ChatGPT给出5篇与p-值不确定性有关的文献。可是ChatGPT给出的5篇文献竟然在谷歌上搜索不到。所以ChatGPT依据什么给出似乎很专业的回答不得而知。
这场“华山论剑”还在进行中,感兴趣的读者可以访问ResearchGate网页:https://www.researchgate.net/post/Does_the_two-sample_t-test_provide_a_valid_solution_to_practical_problems
参考文献及相关链接:
【1】Claridge-Chang, A., Assam, P. Estimation statistics should replace significance testing. Nat Methods 13, 108–109 (2016). https://doi.org/10.1038/nmeth.3729 https://www.claridgechang.net/uploads/2/4/9/8/24985510/estimationmethods-eprint.pdf
【2】Berner D, Amrhein V. Why and how we should join the shift from significance testing to estimation. J Evol Biol. 2022 Jun;35(6):777-787. doi: 10.1111/jeb.14009. Epub 2022 May 18. PMID: 35582935; PMCID: PMC9322409. https://onlinelibrary.wiley.com/doi/10.1111/jeb.14009
转载本文请联系原作者获取授权,同时请注明本文来自黄河宁科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3427112-1379077.html?mobile=1
收藏