谢钢
从统计学及统计数据分析的ABC说起
2024-12-26 13:10
阅读:321

在对我的上一篇博文的评论中冯兆东教授让我“用我们这些p-值盲目使用者能听得懂的语言“,将统计问题“科普化”。恭敬不如从命。但是要想把p-值及其相关的统计分析按科普化的方式解释清楚,我还得从统计学及统计数据分析的ABC说起。

我个人的经历是,先要学会了传统的算术(数手指头及加减乘除)、数学(代数、几何、三角函数、大一的微积分)才学的统计,因为统计学难学。为什么统计学难?因为学统计要先学会概率论,概率论不好学;而统计数据分析就更难。举个例子比较容易明白。

假设A代表一个男学生,B代表一个女学生。问题:AB的体重的差别是多少?答案:分别测量AB的体重,得出结果W_a W_b分别代表AB各自的体重;D_ab = W_a – W_b就是我们要的答案。这里我们所回答的不是一个统计问题。实质上一个简单的算术计算就得出了答案。

可是,假如A代表n1 = 50名男生,B代表 n2 = 80名女生。同样的问题,AB之间的体重的差别是多少?由于AB分别代表一组数据,现在我们所面对的是一个统计问题了。重点在于AB的差别现在必须通过比较两组数据的统计分布来体现。而统计分布的理论基础就是概率分布。从理论的角度来理解概率分布就涉及到所谓的概率空间的概念(感兴趣的读者可参考我以前的博文https://blog.sciencenet.cn/blog-3503579-1343548.html )。即使单单从应用计算的角度,两组数据的统计分布的比较也比单纯计算两个数值的差要复杂很多。比如说,这组男生的体重数值的分布为(以公斤为单位):平均值68,中位数65,标准差8,中心半程差18(中心半程差inter-quartile的定义为:以中位数为中心,上下各25% (合计50%)的数据点所涵盖的数值区间;inter-quartile也可翻译成‘四分位差’ = 上四分位的值 下四分位的值),最小值45,最大值93;对应的女生组的体重数值的分布为:平均值64,中位数50,标准差15,中心半程差25,最小值30,最大值95 。一个比较正确的答案可以这样说。男生平均体重68公斤,比女生平均体重多4公斤;但男生的体重中位数65公斤比女生的体重中位数多了15公斤。表明男生的体重分布基本是对称分布,而女生的体重分布为上偏型分布。进一步从标准差,中心半程差及极值的比较,可以明确地得出女生体重分布的离散程度更大的结论。注意,很多的统计教科书在讲述这样的描述性统计分析的答案的时候都是强调平均值的差别,可能还提到标准差,几乎很少进一步讨论偏度的比较。更不会进一步把数据分析结果与相关的学科机理联系起来。比如,这样的样本数据的分析结果与男女不同的生理结构体重分布特点的关联与解释。做个小结:描述性统计分析是以统计分布理论为基础的对样本数据的概括总结,不同统计分布的对比不仅仅要对比平均值,还要对比数据的离散程度及偏度,甚至更高阶的统计分布性质(higher moment properties of a distribution, e.g., kurtosis例如峭度);更进一步,统计分析的结果只有从相关的学科理论的角度得到合理的解释才有意义。现在的统计学教育及统计数据分析应用几乎已经沦落成了单纯的统计量的计算并按菜谱做菜式的机械步骤进行分析及解释结果而不关注与相关的学科理论的关联。

绝大多数的统计教科书更推崇的是统计推断分析,甚至把统计推断分析当成是科学推断分析的主要/根本手段。那么统计推断究竟能做什么呢?让我们继续上面的例子做一个统计推断分析。关于推荐推断分析的主流定义是,统计推断分析可以让研究人员通过样本数据的分析结果对统计总体的统计特性做出科学有效的数量评估确定。比如,假定上面的学生体重的样本数据是来自某高校的全体2024年在校的N=2500名本科生(其中男生1500名,女生1000名)。一个典型的统计推断分析问题会是,根据以上n1 = 50名男生, n2 = 80名女生这些样本数据可将其描述性统计分析结果总结如表1,那么对应的统计总体的男女生的体重差别是多少?

1:基于假设的样本数据的描述性统计分析结果

样本

最小值

平均值

标准差

中位数

四分位差

最大值

男生(n1=50

45

68

8

65

18

92

女生(n2=80

30

64

15

50

25

95

 

标准的统计教科书会这样回答这个问题。按照中心极限定理,样本均值至少是近似地服从正态分布(对应的总体分布越接近正态分布,样本均值分布收敛到正态分布的速度就越快)。因此,在抽样总体标准差未知的情况下,学生分布(t分布)就是标准的选择来进行统计假设检验分析及计算置信区间。最为常见的选择当然是按α=0.05 做统计假设检验分析及计算相应的95%置信区间。具体做法如下。第一步,提出原假设(也称无效假设=Null Hypothesis):在统计/抽样总体的男女生的体重没有差别;第二步,根据所观察到的样本按式(1)(2 计算合并标准差(S_pooled)t值,并按式(3)计算t分布的自由度(df = degrees of freedom, 自由度)。计算结果为:t = 1.736, df = 125.4, t分布的标准误(standard error 式(1 的分母部分)为2.304 第三步,按第二步的分析结果用统计软件计算p-值及置信区间。

             1),其中 合并标准差的计算公式为

 

              2

 

           3

 

 

R软件可以得到以下结果。双尾检验的p- = 0.085,对应的95% 的置信区间为-0.562 8.56)。如果我们按式(4)计算Cohend值,进一步用GPower软件就可以得到相应的后验统计功效分析(post hoc power analysis)结果如图1所示。

                     4

 

 

 power.png

1:由GPower软件得到的相应的后验统计功效分析(post hoc power analysis)结果

 

按照统计教科书的普遍接受的标准,上述的统计推断结果可以这样解释。由于p-值明显大于0.05,这是一个非统计显著性的结果,相对应的95% 的置信区间(-0.562 8.56)包含零值,与假设检验的结果完全一致。因此我们无法拒绝原假设:在统计/抽样总体的男女生的体重没有差别。从图1 的后验统计功效分析结果看,统计功效只有0.406,即代表二类错误的β值达到了0.546那么高(密度函数曲线下面蓝色的区域大于0.5 – 每一条概率密度函数曲线下的总面积为壹)。我相信以上的对统计检验与置信区间的表达与解读大部分的读者不会觉得有什么不妥的地方。其实如果我们稍微认真思考讨论一下这些结论及其它们的确切含义,你会发现这里面问题多多,如此的统计推断分析/统计学教科书实际上是糊弄了我们几十年。让我们一起来看看为什么我会得出这样令人沮丧的结论。

根据上面的分析结果大多数研究人员最常见的做法就是,基本忽视表1的分析结果及其解读,直接就统计检验结果进行讨论并做结论:因为双尾检验的p- = 0.085,所以对应的统计总体的男女生的体重差别可以认为是统计上没有差别的,所观察到的样本数据表现出的平均值4公斤的差别更可能是由于随机波动产生的。与这个统计检验结果对应的95% 的置信区间(-0.539 8.54)就是总体均值最可能的取值范围(95%的可信度)。我们实在需要问一句,这样的答案经得起仔细推敲吗?很不幸答案是否定的!首先p-值的计算是先假定了男女生的体重没有差别(即原假设)这个前提条件,那么逻辑上这样得到的p-值所含的信息就不可能用来作为判断原假设成立的可能性大小的依据。用数学公式表述就是: Pr(样本数据或更极端的情况|原假设成立) ≠ Pr(原假设成立|样本数据或更极端的情况) – 这是所谓的反向概率的谬误(fallacy of inverse probability)。其次,p-值的计算样本容量与相关的假设条件是否满足都是影响因素。再有,从1500名男生中抽取样本容量为501000名女生里抽80名作为样本数据)的可能的样本数量是10100次方的数量级。任何单一一组样本所包含的关于抽样总体的信息量都是非常有限的。什么复杂数学公式都无法增加样本数据关于总体的信息量。这点从对置信区间的标准解释就非常清楚了。对一个95%的置信区间结果的正确解读是:如果我们重复同样的随机抽样过程及相应的置信区间的计算很多次,95%的这样得到的置信区间会包含抽样总体的真值;但是我们无法确定具体的哪一个计算得到的置信区间是包含总体真值的,也无法确定总体真值具体在置信区间的哪个位置。统计学教学往往对后半部分的置信区间的定义就忽略不提了。换句话说,基于任何一组样本数据得到的置信区间结果我们什么确定性结论(confirmatory conclusion)都无法做出。同样,基于任何一组样本数据得到p-值的结果我们什么确定性结论都无法做出。至此,读者们可能就要发问了,如此原则性的错误怎么可能在统计教育上长期存在?原因就是统计学教科书的作者们以及大部分的统计学教育的老师们长期按照一厢情愿地捏合制造出的无效假设显著性检验范式(Null Hypothesis Significance Testing – NHST paradigm)编写教材及错误地教育一代又一代的研究人员/学生/学者,其动机大概是为了追求用统计分析取代科学分析,用基于一组样本数据的统计推断结果来代替科学推断分析所需要做出的努力与专业的判断。大部分的统计学教科书的作者们及统计学教育的老师们根本不愿意承认统计推断分析无法取代科学分析与判断,NHST意义上的统计推断分析甚至不是科学分析的必要组成部分。我的观点进一步解释如下。

首先我借用类似Fisher品茶的女士这个试验案例(参考博文https://blog.sciencenet.cn/blog-3503579-1357802.html )来阐明以p-值为基础的统计假设检验的局限性或缺陷。我所定义的品茶的女士的试验方案如下。我们准备8杯奶茶来测试这位品茶的女士辨别奶茶是如何冲制的:茶水先还是牛奶先倒入杯中;每一杯的奶茶都有50%的可能性是按两种方法之一冲制的。这个试验方案使我们很容易用一个贝叶斯网络模型来进行研究。

贝叶斯网络模型的理论基础是贝叶斯定理: 。例如,A事件=样本数据或更极端的情况, B事件=原假设成立。除非Pr(A)=Pr(B),否则Pr(A|B)≠Pr(B|A)。这就是前面我们提到的Pr(样本数据或更极端的情况|原假设成立) Pr(原假设成立|样本数据或更极端的情况)结论的理论依据。贝叶斯定理的公式可以有不同的表达方式。比如, Pr(A,B) = Pr(A|B)Pr(B) = Pr(B|A)Pr(A), 其中Pr(A,B) 是事件A,B的联合概率 (joint probability)Pr(A) Pr(B)代表的是事件AB的边际概率(marginal probability),在贝叶斯统计分析中被称为验前概率,代表研究人员在取得样本数据前所具有的关于事件AB的知识; Pr(A|B)则为在知道事件B的结果的条件下事件A的概率(Pr(B|A)则为在知道事件A的结果的条件下事件B的概率=conditional probability)。

2 和图3显示的是一个n=8的二项分布的贝叶斯网络模型按四种不同的验前概率分布得到的分析结果。验前概率分布的变量用黄色的框的节点表示,代表我们愿意假定品茶的女士能正确辨别奶茶是如何冲制的能力水平的分布。比如,2的第一种验前分布假定她有四级可能的水平:50%60%80%,及100%的概率能正确做出判断,而我们的先验知识是零,即我们假定这四种能力水平都有同样的概率是真实的(均匀分布);图2的第二种验前分布假定她有11级可能的水平,同样是均匀分布。图3的验前分布假定她只有两级可能的水平-要么完全瞎猜(50%)要么100%正确,但是这两个验前分布一个是均匀分布,最后一个是非均匀分布。这四个贝叶斯网络都是贝叶斯定理: 的直接应用,其中A= 品茶的女士能正确辨别奶茶是如何冲制的能力水平,B= 所观察到的品茶的女士做出正确地判断的杯数(作为可能的正确判断的杯数的下限)。那么,图2 和图3中被蓝色框标定的节点就是对应的Pr(B|A)(样本数据所代表的似然值函数-likelihood function based on the sample datap-值就是在这里被计算出来的);被红色框标定的节点就是对应的Pr(A|B)(后验概率 – posterior probability)。因此, 除非我们应用贝叶斯定理做分析,我们无法得到Pr(A|B) = Pr(品茶的女士能正确辨别奶茶是如何冲制的能力水平|所观察的的正确判断的杯数或更极端的情况)的答案。

 

2:基于n=8的二项分布所设计的品茶的女士试验的贝叶斯网络模型分析结果(两种不同的验前概率分布) :验前概率分布的变量用黄色的框的节点表示;被蓝色框标定的节点是对应的Pr(B|A)(样本数据所代表的似然值函数);被红色框标定的节点是对应的Pr(A|B)(后验概率)

3:基于n=8的二项分布所设计的品茶的女士试验的贝叶斯网络模型分析结果 (第三、四种验前概率分布):验前概率分布的变量用黄色的框的节点表示;被蓝色框标定的节点是对应的Pr(B|A)(样本数据所代表的似然值函数);被红色框标定的节点是对应的Pr(A|B)(后验概率)

那么,在这个品茶的女士试验里p-值是如何被应用的呢?这个试验的原假设或无效假设是:品茶的女士完全是靠瞎猜做出判断,即prob-pi = 0.5。其对应的概率分布就是蓝色节点所显示的结果。因此,单尾检验,在品茶的女士猜对了全部八杯的情况下的概率就是p- = 0.39%=Pr(八杯全部判断正确|做出正确判断的概率为0.5)。再检查被红色框标定的节点的验后概率的结果,只有在验前概率分布是二分的(要么瞎猜,要么100%肯定)并且均匀分布的条件下p- =Pr(八杯全部判断正确|做出正确判断的概率为0.5) =Pr(做出正确判断的概率为0.5|八杯全部判断正确) = 0.39%。在其它三种验前概率分布下Pr(八杯全部判断正确|做出正确判断的概率为0.5) ≠ Pr(做出正确判断的概率为0.5|八杯全部判断正确)0.39% 对比0.33% 0.14%, 3.4%)!假定品茶的女士要么完全没有分辨两种冲制方法的能力,要么百分之百能做出正确的辨别判断,这样的验前概率的假设当然是非常不合理的。因为更可能/更现实的假设应该是她的确具备一定的正确辨别判断的能力,虽然不是百分百准确但肯定不是完全瞎蒙(五五波那么乱猜),而且应该假设她有多级的可能的判断能力的水平。这就是为什么Jacob Cohen 在他的著名的文章”The earth is round (p<0.05)”会这样无奈地说到“NHST究竟错在哪里呢?这样说吧,除了许多其它的问题之外,它并不能提供给我们想知道的答案,出于无奈,我们只好选择相信它给我们的就是我们想知道的。”

其实,在统计假设检验的分析过程中p-值究竟能告诉我们什么不能告诉我们,这只是问题的一部分。更根本的麻烦还在于,当我们说品茶的女士判断每一杯茶的冲制方法的能力时,我们如何确定对应的抽样总体呢?单单凭某一次的试验就能确定品茶的女士过去、现在、及未来任何时候的评判能力吗?统计学相关的抽样调查的理论所要求的必须是从一个抽样框里随机抽取样本数据(sample data must be generated by randomly selected from a well defined sampling frame)。把事情搅得更糊涂的是,Fisher把随机抽样的必要条件与区别于观察性研究的试验性研究里的随机配对的必要条件与以p-值为评判标准做一般性的统计推断结果的推广应用全搅到了一起。后来的统计教科书的作者们更是把NHST的范式发挥到极致,使得大部分的研究人员盲目地相信,只要算出了p-值,统计推断的结果就等同于科学推断的结果了。

让我们再回到男女生的体重的问题上。我们应该做到及能够做到就是表1给出的描述性的分析结果,更重要是以此为数量依据,从科学的角度探讨最合理可能的解释(溯因分析)。比如,从男女士的生理结构,身体发育特点来确定最合理可能的统计分布。必要的话,在不同的条件下重复这项研究,比如,在不同的国家/地区进行同样的研究。单凭一组样本数据,无论我们如何在数据分析的具体方法上做文章都不会出奇迹,能得出可靠的放之四海而皆准的普适性结论。

再有,统计功效分析只是Neyman-Pearson的假设检验方法的一部分,对于一组样本数据的统计分析搞统计功效分析是目前又一个普遍发生的统计理论的错误应用。在此恕我实在不可能再打开又一个潘多拉的魔盒。请读者自行学习相关的文献,比如Jose D. Perezgonzalez (2015). Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing.  Frontiers in Psychology, Volume 6, Article 223 Gerd Gigerenzer (2004).  Mindless statistics.  The Journal of Socio-Economics 33, 587–606.

至此,我相信大多数读者已经会感到这篇博文里我所写下的东西完全不是什么“统计学及统计数据分析的ABC”。的确如此!因为,有统计学家早就说过,p-值(更一般地说,统计推断分析)的问题要么可以简单明了地给出错误的定义与解释;如果最终给出的是一个正确的定义与解释那么听众/读者一定已经是被彻底绕糊涂了!因为p-值(更一般地说,统计推断分析)本质上就是这么样一个东西 - 它根本无法被简单明了并且正确地被说清楚!

最后,我以一个最初学习回归分析的时候所理解的统计分析应该如何做与解释分析结果的假想的问题为例,来再次说明统计假设检验的思路是完全与科学研究的思路不同的。

https://opentextbc.ca/introductorybusinessstatistics/chapter/regression-basics-2/

上面这个从网络上下载的一个最简单的单个预测变量的回归模型分析的例子,图中的数据描述的是某个地区的一个卧室的公寓的销售价(结果变量)与到Nelson市中心的距离(预测变量)之间的关系。解读这个回归模型的分析结果可以完全与p-值无关。首先,住宅的价格与距离所在地区商业中心的距离成反比符合我们的生活常识。我最关心的是具体这个距离越远价格越便宜的程度是多少;其次,这个模型与数据的拟合程度如何(调整后的R平方的值是多少);第三,数据本身只涵盖了距市中心最远不超过五公里的范围,因此此分析结果对超出此距离的情况不一定适用。第四,要注意这些数据是最新的数据,情况随时间会发生变化。最后,没有人会傻到把这个模型的分析结果套到另一个国家或地区来应用。也没有人会问,这些数据是不是来自一个随机样本,而是会问,这些数据的来源可靠吗(是从专业的房地产公司的数据库里得到的吗)?希望这个更贴近生活实际的例子能为我的观点增加一点点的说服力 目前普遍为大多数专业期刊文章所推崇接受的以统计假设检验为代表的统计推断分析其实是对科学研究作用不大甚至是有害的。我们都被这样的统计学教育及统计数据分析应用实践糊弄了多年,而且这种情况还暂时看不到有结束的时候。

 

转载本文请联系原作者获取授权,同时请注明本文来自谢钢科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3503579-1466112.html?mobile=1

收藏

分享到:

当前推荐数:12
推荐到博客首页
网友评论7 条评论
确定删除指定的回复吗?
确定删除本博文吗?