应行仁
概率的理解和应用 精选
2017-5-2 09:22
阅读:19480
标签:概率, 贝叶斯公式, 医疗诊断

“我有没病,跟世界人民有毛关系?”人们看到这话,有的觉得是概率问题,有的以为情绪发泄。同样的文字有不同的解读,这取决于你理解的基础。概率也是这样,有的认为是实用的利器,有的以为是数学游戏,之所以这样,那是你对概率的概念理解不同。初等概率其实很简单,公式和推理不过是中学数学,经典的例子不外乎扔钢蹦掷骰子摸彩球。人人读后都以为懂了,其实很多人进门就走错方向。这篇从概率的门前开始介绍。

科学盛行后大家认为,以前只有上帝知道的客观存在,现在我们也能确定的学问叫科学。概率应用于这种全能全知的想法之外。张三有没有病,一盒彩球中我摸到什么色,这确定的事实,是上帝知道我不知道的。但如果我有某些相关的信息,虽然不能以此确定张三的病,球的色,能否以此估计个可能性?认为这工作有意义的,叫这可能性的数值P为概率。概率P(A)是对事件A发生可能性估计的一个测度,它是从01中的一个实数值,数值越大可能性越大。

这个具体的数值是多少?关系到你对这种“可能性”量度的看法,赌徒是从重复情况发生频率的比率来定义的,律师则从对证据信念的赔率来确定的,你还可以从其他角度来定义这个测度函数。就是说在原则上,集合中事件A具体的概率测度P(A)可以有不同的定义方法,只要P(A)=0解读成逻辑上的false,即事件A绝不可能,1解释成true,即事件A绝对是可能,数值越大则可能性越大的测度,都可以称为概率,都可以用它来比较可能性的大小。不管怎么定义的概率,在集合测度的性质下(空集零测,独立事件概率相加,无穷并集事件的概率半可加性),都满足一系列的概率关系式,包括贝叶斯公式,这是现代概率论的提法。

这样不明确地规定的概率测度值,在实践上有什么意义?首先,它们大小的比较,符合人们对可能性比较的认知。这是它有用的基础。不管你信不信概率,你在日常中无不应用可能性大小的概念,来判断事件的真实性,以此决定下一步行动。血检告诉你,不大可能患癌还是很有可能,对你做不做活检,甚至开不开刀关系重大,概率是通过具体数值是9%,90%或其他,更精细地告诉你这个可能性的大小。其次,概率的公式联系起不同事件间概率量度的数值,只要你认可已知的概率,以公式计算出来的概率则是一种同样可靠的估计,这是数学证明所保障的,与任何数学的计算的可行性是同一回事。它是在逻辑上保证概率计算是可信的基础。所以你只要相信概率对实践有用,你就可以相信贝叶斯公式计算结果对实践有用,除非你用错了公式。

既然概率的测度值有不同的定义方法,到底哪种靠谱?历史上把赌徒的方法称为客观概率,或频率派,律师的方法为主观概率或贝叶斯派。实际上这些名称都有误导,所谓的客观,隐含着未言明的实验条件假设,所谓的主观并非是任性的假设,所谓的贝叶斯派不是别派不信贝叶斯公式,只是它把贝叶斯的理念推往极致。它们之所以靠谱,都是把这种不确定的猜测,以事关身家性命的金钱的赔率和官司的胜负来作赌,经受到实践检验的。它们定义的概率数值都与掌握的信息有关。对频率派来说,这个信息设定下的统计越符合实际,它估计的数值越靠谱,对贝叶斯派来说,这个信息越是具体,切近考察的个体,推断也越符合事实。无论如何,当同样的知识信息被充分正确利用后,这两个数值趋向一致。

那么“我有没病,跟世界人民有什么关系?”如果没有更多信息,只知道统计世界人民有0.1%的人得这病,你就有0.1%的可能性中标,这就是你得病的基础概率。

不信的人认为这估计没意义,把张三放在世界人群中考虑,按统计他生x病的概率是0.1%,同一个的他,放在他10个有2个中标的基友中,患病率则是20%. 你说哪个是真正的概率?

这对概率的理解一开始就错了,没有什么绝对真理的确定概率,一切的概率都是相对于所知的信息作出的估计。当你只有对世界人群的统计知识,你只能得知0.1%的可能,你有他基友的信息,你就能得知20%的可能。你都有这两者,心中有数的就看你怎么用,越是靠近你的实际情况就越精确。不同的已知信息,决定不同的概率值。只要信息是对的。这些不同的数值都是对的,这可以用统计来验证它们符合各自的信息。如果信息不尽可信,你又知道这信息可信程度的概率,你也能用概率公式作出进一步的估计。

你可能觉得这很可笑,同一个问题怎么会有两个不同的正确答案。看个例子。月薪1万,你猜他全交给老婆是多少?1万是已知这信息的答案,如果他还有奖金1千呢?如果他先给了小三2千呢?不同的信息得出不同的猜测数量。同理,概率是对不确定问题,根据已知的信息作可能性的猜测,不同的信息得出不同的猜测数值。

那么这是主观的,不是还有客观概率?这两个术语的内涵,很多人也理解错了,主观不是我和你想法不一样,而是强调这概率是由拥有知识而定;客观不是说没有你的知晓,这真实可能性也是这个数,而是说基于默认的一个假设,实验的结果是这样的。不存在不依知识而有的客观估计,客观概率先验概率只不过缺省了这些已知知识的假设。平均分布是最简单而经常被确省的假设。这只是一种不言而喻的假设背景知识。你的知识越靠近估计对象的实际情况,你的估计就越精确。如果你什么都不知道,你无法给出任何估计。

当我们有了检测的信息时,如果我们知道这检测对事件的敏感度和特异度,就可以把检测前的事件概率与有了这检测新信息后的新估计,用贝叶斯公式通过检测的性能联系起来。所谓的先验概率不过是有这新信息前的概率,后验概率是有了检测结果后,对同一事件更新的概率,先后之说只是相对于这检测信息而言。这便是一切检测判断概率计算的基础,有了贝叶斯公式我们不必事事再做统计,便能从已知的统计概率中,通过检测条件和结果的信息更新估计的概率。

在医疗检测诊断中,概率的应用很多。这里抄一段我收到的美国血检阳性后,报告里对患癌的概率数据。这是美国医生建议50岁以上男性每年常规PSA检查的报告。有一些其他检测阳性结果的报告,也附有这类的概率估计给医生和病人参考(在美国,病人与医生有同等权利了解健康信息。你年龄段和这次检测的%fPSAS值落入表中哪个区间,把它和PSA阳性看作条件B的信息,它告诉你这条件下患癌A概率P(A|B).

In patients with total PSA concentrations of 4-10 ng/ml, the probability of finding prostate cancer on needle biopsy by age in years is:

%fPSA

50-59

60-69

70 or older

0-10%

49%

58%

65%

11-18%

27%

34%

41%

19-25%

18%

24%

30%

> 25%

9%

12%

16%

Other factors may help determine the actual risk of prostate caner in indvidual patients ...... Jerry W. Hussong, MD - Lab. Director

Lab给出的不同情况的阳性患病率表,直接从统计得出这12种不同条件下前列腺患癌率是不现实的。即便你要统计如此,如果你想知道,给不在表中的50岁前男人或女人,用测PSA做初诊的患癌率呢?提高机器性能后呢?你是否还要再做这么多不同群体的统计?实际上检测方法说明书只要提供它检测Total PSA和Free PSA ratio的精度,谁都能用文献报告中,他所在群体前列腺患癌的统计比率,以及是否前列腺癌对PSA指标的敏感度和特异度等统计数据,算出检测阳性对他患癌的概率。这表中12种情况,是Lab这么算来供医生和病人参考的。如果不在这表中,你懂得贝叶斯,也不难通过个体所处群体的患癌率,算出这被测出阳性的患病的可能。

在最近美国给医生科普“机器学习”的材料中,我不时看到用贝叶斯公式计算,检测和诊断概率之间关系的内容。医生通常自己不算诊断概率,有关资料或实验室已替他们算好了。科普机器学习的教材,通常给他们补一下基本线性代数和概率的知识。下面是一段用检测诊断乳腺癌的实例,名为“Bayes' Theorem and Cancer Screening”的较短视频

概率是不确定之事发生可能性估算的学问。信与不信也是各人的认知。只不过世事无常,哪能尽判黑白?估算之技,“知之者胜,不知之者不 ... 多算,少算不,而況无算乎!”


相关专题:概率问题与贝叶斯定理

转载本文请联系原作者获取授权,同时请注明本文来自应行仁科学网博客。

链接地址:https://wap.sciencenet.cn/blog-826653-1052402.html?mobile=1

收藏

分享到:

当前推荐数:31
推荐到博客首页
网友评论55 条评论
确定删除指定的回复吗?
确定删除本博文吗?