在科学网上发了不少关于统计分析方面的博文,却鲜有人提出问题;甚至如果有人对我的博文提出质疑我都会很高兴。至少代表了有人真正在意你写了什么东西,写的对不对,有没有道理。
在最近科学网—对贝叶斯统计学基本概念/定义的最浅显易懂的解释 - 谢钢的博文里我提到了Gibbs取样或译作Gibbs取样器(Gibbs sampler)是贝叶斯统计学的核心概念,却没有人问一问‘为什么?’ 既然我主张,只要在你的统计分析是以贝叶斯定理为基础的应用分析就是贝叶斯统计分析,为什么还需要这么一个不容易弄懂的Gibbs取样器?
中国之所以现在是国际公认的核大国是因为我们有‘两弹一星’。为什么有原子弹、氢弹还不能算具有了核威慑能力,非要再加上一个‘卫星技术’?原因很简单,有了威力巨大的核弹还必须配备上相应的运载工具才能形成真正的核威慑能力。
在我谈贝叶斯网络的时候https://blog.sciencenet.cn/blog-3503579-1466236.html ,我也指出,贝叶斯定理与概率计算的链式法则(Chain rule of probabilities)是共同支撑贝叶斯网络的两个基本理论公式。既然是贝叶斯网络,有了贝叶斯定理,为什么还需要概率计算的链式法则?道理也是一样的,有了贝叶斯定理相当于是有了强大的武器,可是要让这武器能在实战中发挥作用,必须靠概率计算的链式法则来实现。
同样的道理,贝叶斯定理在实际统计数据分析的应用时对超过一个参数的模型就变得无能为力了,完全不能用来分析实际数据解决实际问题。正是Gibbs取样器(Gibbs sampler)的存在及其能对多参数模型的循环逼近直至达到最优近似结果的理论特性使得贝叶斯统计模型真正能用来解决实际的科研问题了。Gibbs取样器在贝叶斯统计分析中的角色与作用就是等同于核威慑力量里运载工具及贝叶斯网络的理论基础里的链式法则。在满足互换性的条件下,贝叶斯统计甚至把缺失数据也当作需要以样本数据为依据进行估计的模型‘参数’来确定其最佳的填充值(imputation values)。
当然,世界上没有免费的午餐,虽然相比于传统的频率学派的统计模型,贝叶斯统计模型具有以下无可替代的系统性优势:逻辑一致性(包括累积证据的能力与透明性);支持不确定性量化用以进行探索性分析(what-if analysis);支持证据链的累积。作为一个不争的事实,贝叶斯统计分析也更难应用,因为它要求我们对相关的数据产生的机理要有明确的定义/假设/或理论依据。但是我还是要再一次地强调,我们应当明白,在只对单组样本数据进行分析的情况下,无论使用频率法还是贝叶斯统计,都无法提供确认性/决定性的科学结论。贝叶斯统计的核心优势不在于单一结果的分析,而在于其逻辑一致性和证据链累积能力。科学研究的最终目标是通过多次研究的证据累积来确认发现的正确性与可靠性,而贝叶斯统计提供了这样一个更优越的方法论框架来实现这一目标。
转载本文请联系原作者获取授权,同时请注明本文来自谢钢科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3503579-1468971.html?mobile=1
收藏