所有的零假设显著性检验(NHST)(例如t-检验)都给出了一个概率值,称之为p-值。即然p-值是一个概率值,那么p-值是什么事件发生的概率呢?谢钢老师最近的一篇博文讨论了“如何正确解读p-值”【1】。谢老师在博文中列举了文献中常见的几种对p-值的误解及其澄清。这些对p-值误解的澄清概要如下:
(1) p-值不是给定数据下原假设成立的概率。
(2) p-值不是错误地拒绝了原假设的概率。
(3) p-值不是在给定原假设成立的情况下观察到我们数据样本的概率。
(4) 小p-值不表明原假设不太可能成立,也不表明在原假设下发生了罕见事件。
读者可能已经注意到,上述对p-值的解读(误解)都是在零假设显著性检验的语境下进行的。p-值本身只是一个概率值,没有对与错的问题。但是因为p-值是零假设显著性检验(NHST)的成果,而NHST存在逻辑缺陷,所以在零假设显著性检验语境下根本不可能正确解读p-值。换句话说,对p-值的所谓“误解”其实是零假设显著性检验的必然结果。只有放弃零假设显著性检验,才能够消除对p-值的“误解”。
那么,p-值到底是什么事件发生的概率呢?回答这个问题必须考虑具体的实际问题。考虑实际中经常遇到的一个问题:给定分别取自于两个厂家(1和2)生产的某一产品(例如电池)的两个样本,评估这两个厂家产品的质量(以产品使用寿命做为质量指标),进而决定购买哪个厂家的产品。在零假设显著性检验的范式下,通常采用z-检验或者t-检验得到的p-值来推断两个厂家产品使用寿命均值之间的差别是否“统计显著”。但是如前所述,在零假设显著性检验的语境下无法正确解读p-值。为了解读这个p-值的真正含义,我们可以将z-检验进行如下的分解【2】:
上式表明单尾z-检验产生的p-值的真正含义是“厂家1产品使用寿命均值的抽样分布小于厂家2产品使用寿命均值的抽样分布”这一事件发生的概率(估计值)。当样本量较大时(n>30),t-检验可以用z-检验来近似。因此,单尾t-检验产生的p-值的含义近似为“厂家1产品使用寿命均值的抽样分布小于厂家2产品使用寿命均值的抽样分布”这一事件发生的的概率(估计值)。解读了p-值的真正含义后,我们发现这个概率值(p-值)并不能帮助我们评估这两个厂家产品之间的质量差异。这是因为p-值随着样本量的增大而减小,无论两个厂家产品使用寿命的平均值如何小(即两个产品没有实质性的质量差异),只要样本量足够大,p-值就可以小于显著性阈值0.05,表明两个厂家产品质量“差异”是“统计显著的”。这显然是不合理的。因此,z-检验或者t-检验产生的p-值不能帮助我们进行科学推断。对这个问题感兴趣的读者可以参见文献【2】。
【1】谢钢 2024 假如我们正确地解读p-值,科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3503579&do=blog&id=144520
【2】Huang H 2022 Exceedance probability analysis: a practical and effective alternative to t-tests Journal of Probability and Statistical Science 20(1) 80-97 https://www.researchgate.net/publication/366055947_Exceedance_probability_analysis_a_practical_and_effective_alternative_to_t-tests
转载本文请联系原作者获取授权,同时请注明本文来自黄河宁科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3427112-1446121.html?mobile=1
收藏