||
在零假设显著性检验(NHST) 中,首先需要建立“零假设”。例如在双样本t检验中,假设两个总体的均值为零。这个“零假设”其实是一个“稻草人”。因为在任何实际问题中,两个总体的均值不可能没有差别,而我们的任务是评估这个差别的重要性。下面以双样本 t 检验为例来说明。
考虑两组数据:A 组数据来自治疗方案 A ,B 组数据来自治疗方案 B 。我们感兴趣的是治疗方案 A 是否优于治疗方案 B(或者相反)。根据双样本 t 检验的步骤,我们首先提出一个零假设(“稻草人”),即两组的未知总体均值相同,并提出一个备择假设,即两组的未知总体均值不同。然后,我们使用双样本 t 检验生成一个 p 值。如果p值>0.05, 接受“零假设”,认为两个总体均值在0.05显著水平上无差异,即治疗方案 A与B没有差别。如果 p值< 0.05,拒绝零假设,即“稻草人”被推翻,从而认为治疗方案 A与B之间的差异“具有统计学意义”。然而,这种方法并没有真正回答治疗方案 A 是否优于治疗方案 B(或者相反)的问题。相反,它误导我们根据p值阈值(如0.05)量化的“统计显著性”来推断两组之间是否存在差异。
p 值在英文文献中被称为“statistical evidence”(统计证据)。既然是用统计证据来进行统计推断(statistical inference),NHST属于归纳推理,不是演绎推理。虽然NHST的陈述采用了选言式演绎的格式,看起来似乎很有逻辑,但是本质上是归纳推理。在实践中,我们只需根据两组均值之差(即效应量)就大致可以判断两组的差异。因此,我们没有必要建立一个“稻草人”(零假设),然后再试图去推翻它。我们可以直接根据专业知识评估效应量的实际重要性。然后我们可以进一步进行“超越概率”分析,确定A优于B(或者B优于A)的概率【1】。
《概率论及数理统计》第二版(下)【2】给出了一个t检验的范例。设有甲、乙两种安眠药,为了比较它们的治疗效果,独立观察了20个病者,其中10人服甲药,另10人服乙药。下表显示睡眠延长数据。
甲(小时) | 1.9 | 0.8 | 1.1 | 0.1 | 0.1 | 4.4 | 5.5 | 1.6 | 4.6 | 3.4 |
乙(小时) | 0.7 | -1.6 | -0.2 | -1.2 | -0.1 | 3.4 | 3.7 | 0.8 | 0 | 2 |
假定甲和乙服从均值分别为a1 和a2,方差相同的正态分布。试问这两种药物的疗效有无显著性的差异?设零假设H0:a1=a2。t检验计算结果是:t18=1.90,t18(0.05)=2.10。由于1.90<2.10,(对应于p值=0.07>0.05),不能否定零假设H0,因而认为这两种药物的疗效没有显著性的差异【2】。
然而,以上t检验给出的结果是‘统计显著性’,不是‘科学显著性’。根据这个t检验结果认为这两种药物的疗效没有显著性差异的结论是错误的。
对于甲、乙两种药物的疗效:即‘科学显著性’,可以根据两个统计量来评估:(1)平均睡眠延长时数差,即‘效应量’(2)甲药比乙药更有效的概率,即超越概率P(甲>乙)。这两个统计量具有明确的物理意义。根据数据计算得到甲药平均睡眠延长时数为2.35小时,而乙药平均睡眠延长时数为0.75小时,两者相差1.6小时。甲药比乙药更有效的概率为72.6%。根据这两个统计量,我们可以得出‘科学推断’:甲药比乙药疗效好。
对这个教科书范例的分析表明:t检验和p值并不能够帮助于科学家进行正确的科学推断。关于NHST的逻辑错误,感兴趣的读者可以参见谢钢老师的博文【3-6】。
参考文献
【1】Huang, H. 2022 Exceedance probability analysis: a practical and effective alternative to t-tests. Journal of Probability and Statistical Science, 20(1), 80-97.
【2】梁之舜、邓集贤、杨维权、司徒荣、邓永录编著,1988《概率论及数理统计》第二版(下),中山大学数学系,高等教育出版社。
【3】谢钢 2024 假如我们正确地解读p-值,科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3503579&do=blog&id=1445209
【4】谢钢 2022 再谈“品茶的女士” (The Lady Tasting Tea), 科学网,https://blog.sciencenet.cn/blog-3503579-1357802.html
【5】谢钢 2022 “统计上是显著的” – 在做统计数据分析时请不要再这样说,也不要这样用了!科学网,https://blog.sciencenet.cn/blog-3503579-1324675.html
【6】谢钢 2022统计显著性问题的历史由来及最新进展, 科学网, https://blog.sciencenet.cn/blog-3503579-1327602.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-28 02:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社