黄河宁
“华山论剑”简报
2023-3-6 08:59
阅读:1921

笔者于去年12ResearchGate上发起了一个讨论:“Does the two-sample t-test provide a valid solution to practical problems?” (双样本t-检验能够解决实际问题吗?),引发了激烈的网上辩论,堪称统计学江湖上一场论剑”。在将近三个月的时间中,来自德国、美国、波兰、土耳其、法国、意大利、南非、澳大利亚、尼日利亚、及利亚、博茨瓦等国家的16位学者参与了这场论剑,发表跟帖评论159篇,访问量近2000。

以德国统计学家Jochen Wilhelm、法国统计学家Emmanuel Curis、和美国统计学家Salvatore S. Mangiafico为代表的学者坚持传统的假设检验范式。他们的主要观点是: t-检验和p-值是有用的“工具”;假设检验不存在方法论上的缺陷。他们甚至认为p-值不存在不确定性(这使笔者大为惊讶)。但是他们承认假设检验和p-值经常被误解或者滥用,因此应该加强统计学教育,促进使用者正确理解假设检验和p-值。

笔者赞同放弃传统的假设检验范式,用“估计范式”取代假设检验范式【1】。笔者的主要观点是:t-检验和p-值存在方法论上的固有缺陷:t-值和p-值是样本量的函数,因此t-检验不能够自洽; t-检验不能够对实际问题提供有效的解决方案。 另外,笔者认为p-值存在不确定性,因为p-值是样本统计量,即随机变量。

辩论的双方各持己见,谁也无法说服对方。双方除了同意 p 值经常被解之外无法对其它问题达成共识。然而笔者对此并不感到意外。因为辩论中的双方承诺于两种不同的范式:假设检验范式和估范式。两种范式本上是不可通的,因1)对问题的设置不同,(2)没有共同的推理准则。但是毋庸置疑的事实是,经过 100 年的教育、推广和用,假设检验现在正面着最严峻的挑Berner 和 Amrhein 【2】最近指出: “从零假设显著性检验范式的转变似乎正在行中。”

这场论剑”恰逢ChatGPT风靡全球笔者也赶时髦与ChatGPT聊了聊p-值。笔者首先询问ChatGPT是否了解p-值。ChatGPT回答“yes并且给出了p-值的定义。笔者接着问p-值是否存在不确定性。ChatGPT回答“p-值当然存在不确定性,因为p-值是基于样本计算的,会随机变化。”笔者进而问如何量化p-值的不确定性。ChatGPT回答可以采用蒙特卡洛模拟、bootstrapping、以及贝叶斯方法估计。笔者要求ChatGPT给出5篇与p-值不确定性有关的文献。可是ChatGPT给出的5篇文献竟然在谷歌上搜索不到。所以ChatGPT依据什么给出似乎很专业的回答不得而知。

这场论剑”还在进行中,感兴趣的读者可以访问ResearchGate网页:https://www.researchgate.net/post/Does_the_two-sample_t-test_provide_a_valid_solution_to_practical_problems

参考文献及相关链接:

1Claridge-Chang, A., Assam, P. Estimation statistics should replace significance testing. Nat Methods 13, 108–109 (2016). https://doi.org/10.1038/nmeth.3729 https://www.claridgechang.net/uploads/2/4/9/8/24985510/estimationmethods-eprint.pdf

2】Berner D, Amrhein V. Why and how we should join the shift from significance testing to estimation. J Evol Biol. 2022 Jun;35(6):777-787. doi: 10.1111/jeb.14009. Epub 2022 May 18. PMID: 35582935; PMCID: PMC9322409. https://onlinelibrary.wiley.com/doi/10.1111/jeb.14009

转载本文请联系原作者获取授权,同时请注明本文来自黄河宁科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3427112-1379077.html?mobile=1

收藏

分享到:

当前推荐数:5
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?