声明:这是一个我与ChatGPT-4 版本在2025年1月9日共同创作的关于二项式分布、多项式分布,与贝叶斯统计分析的博客文章。
刘全慧教授在评论黄河宁老师的博文科学网—一篇关于p值的评论文章正式发表上线 - 黄河宁的博文时给出了他研究E. T. Jaynes(1922-1998)的ProbabilityTheory—The Logic of Science的心得讲座的链接 https://www.koushare.com/space/352039/live 。在刘教授的视频中他提到了一个三种可能结果(k=3)的多项式分布的贝叶斯分析的例子。我虽然不想不懂装懂地去更深入地评论ProbabilityTheory—The Logic of Science这本书,但是却想试一试对刘教授的视频所提到的例子用贝叶斯网络模型给出一些具体应用分析及其结果。这就是写本博文的动机。
以上内容都是将已知的相关的概率分布结果做个介绍,因此我就利用ChatGPT根据我的提示问题给出我需要的答案。
刘老师的在他的视频中以一个坛子里装了至多三种颜色的球的具体假设条件来讨论多项式分布问题,传统的频率主义学派是如何分析这个问题的,贝叶斯统计方法又是如何分析这个问题的。
以下则是我用Netica软件建立的上述的多项式分布的贝叶斯网络模型(图1至图4为模型A,图5至图8为模型B 。模型A与模型B的不同在于所假设的不同的验前参数概率分布prior distribution for the multinomial distribution parameters)。下面的八个图里,第二列的三个(prob-correct)节点分别代表三种不同颜色(红、蓝、黑)的球,它们被装在一个坛子里被抽取作为样本数据。为了能够构造出一个具体的贝叶斯网络模型,我进一步做了如下的假设:如第三列的棕黄色的total numbers节点所示,所能提取的每组样本的(颜色球)数量的范围是至少三个,最多21个。左右两边的绿色的节点是这个k=3的多项式分布的四个参数的验前分布的节点,左边的节点代表的是每一种颜色的球被抽取的概率,右边的节点代表的是抽样总体(坛子里)的球的总的数量(假设我们所能知道的只是坛子最多能装40个球)。
在一个贝叶斯网络的模型中,每一个节点的中间列的数值是百分数,它们必须加总到100;它右边的直方图是中间列的百分数的图形表达。图1和图5表示的是没有抽取任何样本时的状态;图2和图6给出的是在三种球都是相同概率被抽取的假设条件下的多项式分布的概率,在此基础上,从频率主义学派的角度可以进一步算出p-值。我的贝叶斯网络模型无法快速地算出p-值,我于是依靠ChatGPT为我得到结果p-值约等于0.496 。但我的贝叶斯网络模型可以直观快速地给出贝叶斯分析的结果,如图3、图4及图7、图8所示(图3和图7的结果与图4和图8之间的区别在于所抽取的样本不同,前者是2个红球,5个篮球,3个黑球组合的样本,后者是2个红球,7个篮球,1个黑球组合的样本。如图1和图5所示,我目前假设的多项式分布的参数的验前分布为均匀分布(即所谓的non-informative prior distribution - 假定我们没有任何的先验知识)。我们注意到,如果按照频率主义学派的观点,我们无法拒绝三种球都是相同概率被抽取的原假设;而按照贝叶斯分析的结果则完全不同:从图3和图7的结果我们可以得出结论,红球出现的最可能(most probable)的概率是0.182,篮球的概率是0.455,黑球的概率是0.364(0.2,0.5,0.4归一化normalisation之后的结果,for a multinomial distribution, the probabilities of all possible outcomes need to be added up to unity)。
我的这个叶斯网络模型很容易就可以假设非均匀分布的参数的验前分布(informative prior distribution),只是不想搞一个太长的博文,在此就此打住。
欢迎博友们就我的叶斯网络模型的使用与分析结果提出问题,我一定尽力解答。
图1:贝叶斯统计多项式分布(三种状态)的贝叶斯网络模型(A):没有样本数据的状态
图2:贝叶斯统计多项式分布(三种状态)的贝叶斯网络模型(A):给定参数(2个红球,5个篮球,3个黑球组合的样本),这组样本数据对应的概率值是0.0427=4.27%,与ChatGPT算出的结果完全一致。
图3:贝叶斯统计多项式分布(三种状态)的贝叶斯网络模型(A):贝叶斯方法估计参数 (2个红球,5个篮球,3个黑球组合的样本)
图4:贝叶斯统计多项式分布(三种状态)的贝叶斯网络模型(A):贝叶斯方法估计参数(2个红球,7个篮球,1个黑球组合的样本)
图5:贝叶斯统计多项式分布(三种状态)的贝叶斯网络模型(B):没有样本数据的状态
图6:贝叶斯统计多项式分布(三种状态)的贝叶斯网络模型(B)给定参数(2个红球,5个篮球,3个黑球组合的样本),这组样本数据对应的概率值是0.0427=4.27%,与ChatGPT算出的结果完全一致。
图7:贝叶斯统计多项式分布(三种状态)的贝叶斯网络模型(B)贝叶斯方法估计参数(2个红球,5个篮球,3个黑球组合的样本)
图8:贝叶斯统计多项式分布(三种状态)的贝叶斯网络模型(B):贝叶斯方法估计参数(2个红球,7个篮球,1个黑球组合的样本)
转载本文请联系原作者获取授权,同时请注明本文来自谢钢科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3503579-1468130.html?mobile=1
收藏