事情的起因是农绍庄教授在对科学网—三分钟说清楚为什么现行的统计假设检验范式是站不住脚的伪科学方法 - 谢钢的博文的评论中提出了这样的问题:癌症患症100%喝水吃饭,喝水吃饭是否可以定义为“致癌物”?我以偷懒的方式让AI工具为我作答科学网—为什么虽然‘所有的癌症患者都吃饭喝水’,我们却不能说‘所以吃饭喝水与患癌症是因果关系’? - 谢钢的博文。仔细琢磨一下AI的答案,我并不感到满意。下面我就给出我认为是一个严谨简要的证明及正确的答案。
首先假设A代表患癌症的事件,B代表人人都吃饭喝水的事实。那么农教授的问题可以表述为:如果Pr(B|A) = 1 (任何一个癌症患者都吃饭喝水的概率是100%),是否可以得出吃饭喝水与患癌症有因果关系的结论?
AI给出的答案是‘虽然 所有的癌症患者都吃饭喝水,我们也无法因此得出吃饭喝水与患癌症是因果关系的结论’。我同意AI的结论,但它们的论证则不尽人意,个别地方甚至概念混乱。尤其是,用统计假设检验来证明/说明这个问题的结论是不合适/不正确的。请看我运用独立事件的联合概率的定义所作的严谨简要的证明。
根据贝叶斯定理:Pr(B|A) = Pr(A,B)/Pr(A) = Pr(A|B) P(B) / Pr(A),用通俗的语言表述就是,任何一个癌症患者都要吃饭喝水的条件概率可以通过‘是癌症患者’与‘吃饭喝水’这两件事发生的联合概率Pr(A,B)除以‘是癌症患者’的无条件概率(也称边际概率)Pr(A)计算得到。注意到其中的联合概率可以表示为 Pr(A,B) = Pr(B|A) Pr(A) = Pr(A|B) Pr(B)。独立事件的联合概率的定义则为,如果 Pr(A,B) = Pr(A) Pr(B) 则事件A与B就是彼此互不关联的(彼此不相关)。虽然彼此相关不一定就是因果关系,但彼此不相关的事件肯定不存在因果关系。
因为A代表患癌症的事件,B代表吃饭喝水的事件(并且人人都吃饭喝水),所以,Pr(A|B)代表的就是随机观察所有人/任何一个人所得癌症的概率,与Pr(A)是一回事,即Pr(A|B) = Pr(A)。因此,如果人人(不论是否患癌症)都必须吃饭喝水,Pr(A,B) = Pr(A|B) Pr(B) = Pr(A) Pr(B) ,即患癌症与吃饭喝水是彼此不相关的事件,因此吃饭喝水与患癌症不是因果关系。
从以上我给出的证明看到,甚至连贝叶斯定理都不必涉及到,问题就有答案了。再看看AI给的答案,通过假定原假设为‘吃饭喝水与患癌无关’来做统计假设检验(DS的答案),既无必要,技术上也行不通,越说越糊涂。Copilot和GPT的结论是在癌症与吃饭喝水的例子中,虽然所有癌症患者都吃饭喝水,但这只是 Pr(吃饭喝水∣癌症),并不能推断出 Pr(癌症∣吃饭喝水)。却没有像我的答案一样给出严格的证明。
转载本文请联系原作者获取授权,同时请注明本文来自谢钢科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3503579-1483497.html?mobile=1
收藏