袁贤讯
从测量的不确定性再谈贝叶斯方法——答徐晓(3) 精选
2017-4-12 01:35
阅读:14863

如果你现在是躺在被窝里看手机博客,我建议你:要不现在坐在书桌前仔细阅读;要不先睡觉,起床后再读。躺着阅读有许多毛病,一是对眼睛不好,二是人一犯困,思维容易太快。你得让自己慢下来,就像我现在写这篇文章一样,我尽力地让自己慢下来。

如果你只对争论感兴趣,你无需阅读下去。如果你对医疗诊断、故障诊断、结构健康监控、司法审判、考古等不确定性推理感兴趣,只要你认真阅读,我相信你一定会所收获。

-------------

谢谢徐晓在百忙之中回应。我并没有追着让你回复的意思,但我连着两篇文章把你的名字挂在标题之上,确实不妥。但你知道我是一贯的标题党,请见谅。你有空闲的时候再详细和大家说说假设检验的事情吧。谢谢。

读者请见先验概率:经验、信念与假定

……………………

科学网仍有许多读者觉得高山对得非常自然。我告诉你,他对得非常地不自然,或者说,即便他自己知道他为什么对,许多认为他对的可能都不知道他为什么对了。——像不像绕口令?

除去这场争论中的许多细枝末节,我们争论的焦点,不是那个9%或0.9%。我们争论的焦点在于:针对某个已经检查为阳性结果的具体个体时,医生在评判该潜在病患的患病概率时,为什么需要知道基础患病率?为什么不能直接根据这个诊断系统的可靠度来直接评判?许多人的直觉,包括高山以及科学网许多读者的直觉,就是我们不需要知道基础患病率,诊断系统的可靠度就是结果为阳性的受检者的患病概率。而实际上这个直觉是错误的。而张天蓉老师的这个比率谬误恰恰就是讨论这个直觉错误。许多坚持认为高山正确的朋友当中,他们的讨论都是一些确定性的脑袋在那里自说自话,完全没有进入不确定性思维的状态。

在回答这个问题之前,让我们回顾一下测量和测量误差。以距离的测量为例。任何一个测量工具都需要标定。距离测量工具标定的最终标准就是放在巴黎某个地方的那根一米长的棍子。其他的测量工具,无论是圈尺还是GPS,都以这个标准为圭臬。与这根棍子相比,我们可以得到一个具体测量工具的误差。在确定性的思维模式里,这个测量误差限是用正负多少米来表示的。对吧?一把圈尺经过如此这番标定之后,咱们就用它去进行测量了。在一个正规的测量报告中,我们写上,比如,0.178m $\pm$ 0.001m。对吧?这是我们高中一年级的物理试验讲的内容,大学一年级的物理试验再一次强调了的东西。入脑入心,根深蒂固。一般测量的问题到此就万事大吉了,没有任何的弯弯绕。

再回到我们这个医疗诊断系统,与这个非常类似,但你得仔细体会其中的差别。任何一个诊断系统在实际应用之前,都得标定。标定的原理也和前面的那把圈尺很相像:针对一群已经经过病理诊断(金标准)确诊为患病的受试者,以及另一群已经经过病理诊断(金标准)确诊为没有患病的受试者分别进行机器诊断,得到这个机器诊断系统的假阴率(相当于负多少米)以及假阳率(相当于正多少米)。到目前为止几乎非常一样了吧。

好,接下来就是这个诊断系统用来检测某个具体的潜在病患(这个潜在病患是否真的得病当然未知,如果已知,还查什么查?)。查出来是阳性。机器诊断报告从来都是写:某某病阳性或某某病疑似。

为什么这个机器诊断报告不写:某某病阳性 with 1%的假阳率?这个与医疗诊断报告的习惯有关。但实际上就是这么回事儿。机器诊断报告没这么写,但医生拿到这个报告做确诊前,得要这么读!

这些事情都弄清楚了之后,我们再来看医生(她)该如何使用这个检测报告来帮助对这位潜在病患者(他)的最后诊断。从不确定性推理的角度,这个诊断的关键在于如何看待这个1%的假阳率——你不要抬扛,这个1%是我假定的,你要不喜欢,你可以换一个别的数字。

换句话讲,她现在需要考虑这个阳性结果发生的两种可能:一种是真病人查出了阳性;另一种是假病人查出了阳性。那他到底是真病人还是假病人? 她能不能这样想:“既然是两种有可能查出阳性,那么它们能查出阳性的概率是否构成了我进行推理的完备信息?” 具体地,假设前者的概率是a, 后者的概率是b,那么真病人的概率可以就是a/(a+b)?

贝叶斯牧师的伟大之处在于,他认为,这两个数据并未构成我们进行不确定性推理的完备信息。他提醒我们注意,机器诊断只是这位医生所有信息链中的一个环节。医生在下达检查单时,他的脑海中肯定对她是否患此病有一个可能性判断(possibility,也就是说患病的概率probability不等于零)。 贝叶斯进一步假设,如果我们能对这位医生此时脑海中的这个不确定性有一个量化,并称之为先验概率pi (注意在实践中 0 < pi < 1,两边都是严格不等,不可能有等号),那么,这个先验概率也应该成为上述推理的一个重要元素。具体地,他认为

$p = \frac{a \pi}{a \pi + b(1-\pi)}$

这里的pi 称为先验概率,p称为后验概率。这个公式在概率论当中,可以通过条件概率和全概率公式推导出来。我们当中有许多朋友,包括曾经的我自己,可能都因为这个简单的推导而忽视了贝叶斯方法的重要意义,这也许就是为什么科学网一而再、再而三辩论这个方法的原因吧。

这个公式有两个特例需要详细讨论。第一种特例是,如果pi = 1/2,那么这个后验概率就变成前面这个结果。因此,从贝叶斯方法的角度来看,前面我们认为错误的推理结果(即p = a/(a+b)),本质上是医生认为可能患病和不患病的概率是一半对一半。如果是这样,我们就得惦量一下你的这个挂号费是否花对了。

这个问题有两种情况。一种情况是,病人他在进入门诊之前已经怀疑自己是否患了某病。医生她问询之后,开了检查单,结果为阳性,然后她说这个病的概率是a/(a+b)。到此为止这个挂号费算是白花了。因为所有信息都是由这个机器提供的。第二种情况是,他在门诊之前误以为是普通感冒,她在问询之后,怀疑是某种恶性疾病。开了检查单,结果为阳性,然后她说这个病的概率是a/(a+b)。这种情况下,这个挂号费的价值在于把病人的先验概率从0提高到50%——注意这句话,这里不能简单地看数字,而应该读成“从不怀疑到怀疑”的跃变,这个跃变是有极大价值的。

第二个特例是第一个特例的进一步殊化。假设 a + b 恰好等于1,那么这个后验概率就是这个机器诊断系统的可靠度参数a。高山在他的第二篇博文中认为张天蓉老师犯了这个错误,真的是无厘头。我都怀疑是他自己把自己绕糊涂了。

在结束贝叶斯方法的讨论之前,我必须再一次提醒大家,先验概率并不是可以随便取的。我在另一篇博文中提供了两个简单的方案。一个是前面的无信息的一半一半的方案,另一个是采用基础患病率的方案。通过此前的争论,如果你是第一次阅读这个争论,你自己也可以简单计算,我们发现,这两个不同的方案得到的后验概率的差值是巨大的。这也是近百年来,有关贝叶斯方法的争论一直持续至今的根本原因。让我们再展开一点讨论这个话题,简单地比较一下这两个方案。在进行机器检查之前,如果医生A认为先验患病率是50%, 医生B认为先验概率应该是基础患病率,即0.1%,你会认为哪个医生更值得你花这个挂号费呢?我用挂号费这个概念在这里可能不是很恰当,但请大家注意,我们现在要体验一下,这位病患者还有可能是别的病。这正是我为什么在《贝叶斯方法的一个补充习题》中坚持采用两个竞争性病因,而不用患病与否作为贝叶斯方法讨论的原因。但我那里只是为了避免在讨论时出现旁枝末节的干扰不得以的教学措施(pedogogical approach)。无论如何,至少我认为医生B要更为靠谱一点。科学网上有许多医生,你们可以自己体会一下这件事情,我非常愿意听到你们的反对意见。

这些基本上还是和我原来讲的没有两样。我们还得接着问这样一个问题:为什么我们在普遍测量中没有那么多的弯弯绕?这个问题不解决,贝叶斯方法这只蟑螂就还没有完全拍死。

现在告诉大家,科学测量当中,实际上是面临着一样一样的问题。

先问大家,你测量的物体是0.178m $\pm$ 0.001m,这句话是什么意思?请做下面的选择题吧:

A. 这个物体的实际尺寸是0.178m,而且我们如果多次测量,那我们的实际测量数据一定是在0.177m和0.179m之间变动。

B. 这个物体的实际尺寸是0.178m,而且我们如果多次测量,那们的实际测量数据有95%的比例在0.177m和0.179m之间变动。

C. 这个物体的实际尺寸仍然无法确知,但我们认为这个实际尺寸一定是在0.177m和0.179m之间。

D. 这个物体的实际尺寸仍然无法确知,但我们有95%的置信度认为这个实际尺寸会在0.177m和0.179m之间。

E. 这个物体的实际尺寸是一个随机变量,它的均值是0.178m, 它有95%的概率在0.177m和0.179m之间。

尽管许多人在日常用语中使用答案B,但XX的答案是D,YXX的答案是E。如果要确知物体的实际尺寸,有两个办法:一是去巴黎,二是做无限次测量。两个办法都只存在想像之中,因上巴黎那把尺子也不100%确知。到这里,进入了哲学阶段的大门。想进去的自己进门,我今天头晕,不进去了。

XX的答案认为,这个物体的实际尺寸是一个天然确定的量,尽管我无法确知,但它一定是一个确定的数值。由于测量的随机性,我现在唯一能讲的是,如果你再去测一次,你的测的那个值一定有95%的概率处于我给定的区间之内。

YXX说:XX腐儒也。既然你承认我们对这个实际尺寸无法确知,那就说明这个尺寸对于我们来讲是不确定的。既然是不确定的,那么我们就可以用随机变量来刻划它,我们就可以给它赋以一个概率分布,求均值、方差、预测区间等等。另外一方面,你的陈述里头虽然也似乎含有一个概率陈述(95%,对应于统计里的p值=5%),但你的p值度量的是你的统计方法的可靠性,而不是实际尺寸的不确定性。所以是风马牛,不相及耳!

XX说:YXX力博儒也!…………(待XX回复)

这是测量的概率的一面,我想你应该满意了吧。但仍有一个问题急待回答。为什么我们在答案D或E中不需要使用先验概率?

我的回答是:真的吗?

实际上,在贝叶斯方法的框架体系中,我们是使用了而不自知。只是因为长度是一个连续量,我们在回答D或E时使用了一个完全均匀分布的无信息分布。

这个事情还得慢慢瓣扯。首先,测量工具的概率模型是

$X|\mu \sim N(\mu, \sigma_0^2)$

其中mu是任意未知测量真值,sigma0 是已知测量工具的标准差(注:并不是0.001m,但可以据此推算,细节,不赘)。一次测量数据得x。那么,采用贝叶斯公式,假设先验分布为,

$\pi(\mu) \sim 1$


$p(\mu)=N(x,\sigma_0^2)$

如果我们测三次数据,

$p(\mu)=N(\bar{x},\sigma_0^2/3)$

其中 $\bar{x}$ 表示三个数据的均值。看到没有,这完全是大家通常的数据处理办法。惟一的区别在于,大家平常并没有将这个正态分布显式的表达出来。当然,许多对统计有兴趣的朋友也可以进一步推导后验分布为t分布的结果。

如果大家有办法构造不同的先验概率分布,那么我们的后验概率分布也会跟着变化。这些内容都是显见的,不赘。

那么你可能会问,既然如此,贝叶斯方法岂不是脱裤子放屁?反正你YXX得到的结果和XX的结果实质上(数值上)是一样的。错啦错啦。贝叶斯方法的另一个功能就是,它促使我们谨记,我们的假设是什么。在前面的医疗诊断的例子之中,庸医采用了一个熵最大的先验假设,而你还使劲地认为你的挂号费值当,因为他的诊断概率是99%,而不是另一个说话不中听的医生告诉你的9%。

不要小看了让我们的假设显式化这个功能。如果不信,你可以想想,我们读的科研论文,有多少人在文章结尾时忘了回顾一下他们的假设?或者你的文章被审稿时,有多少次被要求就你的假设做进一步解释?有多少次你的咨询报告被客户质疑你的假设可能不符合现实?有多少次你的风险分析被认为你没有考虑另外一个你没有考虑的危险源(黑天鹅)?……。这些都是让我陶醉于贝叶斯方法的原因。


一点题外话

2011年准备回国任教,在北京拜访当时的湖南大学president-elect赵跃宇教授。赵校长在驻地请我吃饭,我当时初生小犊子,闲谈中向赵校长建议,以后的专业课老师应当适当讲一些基础课。比如讲建筑结构的老师,不光可以让他们讲结构力学、材料力学、理论力学,还可以让他们讲微分方程、数值方法、概率论、工程统计等课。力学出身的赵校长没有认可我的建议。

这一次贝叶斯方法的讨论,都是几位二把刀,没有见到真正做概率统计的人出手。留言者只有一个转帖,号称统计专业人士。可惜留言过于正确,无法置评。我敬重的一位老教授在一次评论当中,指出概率的讨论需要专业人士,甚至将中心极限定理都搬出来。不得要领。

许多基本概念,包括前面的物理测量误差,中学强调、大学强调,可是有多少人真正领悟了呢?有些概念,有时搞应用的人比搞理论的人领悟还要深、还更贴切。这并不是说搞理论的朋友不清楚这些概念,而是说他们有时并不清楚他们的应用背景。比如贝叶斯方法,为什么能用,为什么有用?没有实际工作经验的人,并不一定讲得好。换一句话讲,科学网上有多少人用贝叶斯方法赚过钱?不要说你用贝叶斯方法写过文章,出过书。有没有客户对你的计算结果表示怀疑?怀疑时你如何解释?尤其是概率这样需要slow down的概念?

贝叶斯方法如此,其他的概念大体亦如此。既然这样,专业课老师为何不能讲授基础课呢?

相关专题:概率问题与贝叶斯定理

转载本文请联系原作者获取授权,同时请注明本文来自袁贤讯科学网博客。

链接地址:https://wap.sciencenet.cn/blog-103568-1048293.html?mobile=1

收藏

分享到:

当前推荐数:25
推荐到博客首页
网友评论51 条评论
确定删除指定的回复吗?
确定删除本博文吗?