陶勇
最大熵原理估计再生数
2020-3-20 22:37
阅读:3370


由于疫情的原因,笔者20201月底开始注意到传染病学这个领域。

笔者一直有这么一种武侠观念:数学是一门“内功”,物理、经济、生物、机器学习、复杂系统、化学等等学科都是“招式”。每一种招式都有其相应的内功来辅助熔炼。随着内功的精深,学习招式的速度会越快,而随着掌握的招式越多,学习其它的招式将会越来越容易。

所以数学是万法之根本。但学习招式却需要悟性。而至高之境界,当然如令狐冲那样,无招胜有招,不拘泥于招式,不拘泥于武器,草木竹石皆可为剑为招。

由于传染病学所需要的数学不难,所以笔者用很快的速度过了一下相关的文献。然后发现传染病学这个领域其实与复杂系统很接近。在这个学科里有一个参数很重要,叫做“再生数(reproduction number)”R。它代表一个染病患者在一个传染周期之内平均可感染R个人,所以表征传染病的蔓延强度。为了控制一个传染病的流行,必须将再生数R控制到1以下。

但是要想估算出再生数R,却必须知道两代患者之间的代际间隔(generation interval)时间T所对应的概率分布规律PT)。这个时间T代表一个患者A从患病开始到他(她)感染的下一个人症状开始出现时的时间间隔。遗憾的是,PT)一般是不知道的,道理很简单,要想知道它,你必须追溯所有患者的患病细节,比如他(她)被谁感染,感染他(她)的人何时有症状,他(她)又是何时有症状。如此庞大的信息量很难收集完全。所以传染病学者们假设PT)服从指数分布、正态分布、Weibull分布、Gamma分布等等,然后用样本数据拟合这些函数。为了更好的估计参数,学者们也会使用模拟或统计推断的方法估计分布参数。

但是笔者却知道对于这种不完全信息情况下去推断概率分布函数,还有一种办法叫做“最大熵原理”(Jaynes1957)。这个原理是什么意思呢?假如我们不知道概率分布函数长啥样,但是总可以收集到一些它的信息片段吧,比如均值、方差。如果收集到了样本均值和方差,我们就给定它们已知,寻找熵最大的概率分布函数就可以了。而这个函数就是我们要找的对象PT)的最佳近似。简单来说,就是尽可能利用已知的信息(比如均值和方差),避免去假设任何未知的东西(所以熵最大,也即信息量最小)。这就是最大熵原理,其实很多复杂系统领域的学者都知道这个原理。

但是笔者搜遍了传染病学文献,居然发现没有学者使用最大熵原理来估计PT)。这使得笔者快速开始相关研究,并写出了论文《Maximum entropy method for estimating the reproduction number: An investigation for COVID-19 in China》。从而为最大熵原理开辟了一个新的应用途径,也算为传染病学发展出了一个小的方法论分支。更重要的是,这个方法居然真的很成功,笔者根据新的方法预测中国3月5日到6月1日每天的确诊人数,到今天为止,仍旧非常吻合,最吻合的一天误差不超过4(例),有博文《再生数预测确诊病例》为证。

对笔者论文感兴趣的朋友可以在medRxiv自由下载:

https://www.medrxiv.org/content/10.1101/2020.03.14.20035659v1

 

内功和招式相互熔炼,循序渐进,触类旁通,便可以自己发展新的招式。这应该算是笔者在传染病学中的一个小原创了。当然最主要还是感谢Jaynes1957年提出最大熵原理。

 

 

 


转载本文请联系原作者获取授权,同时请注明本文来自陶勇科学网博客。

链接地址:https://wap.sciencenet.cn/blog-1253715-1224505.html?mobile=1

收藏

分享到:

当前推荐数:5
推荐到博客首页
网友评论1 条评论
确定删除指定的回复吗?
确定删除本博文吗?