张鹰的博客分享 http://blog.sciencenet.cn/u/yingzhang1 一个留守儿童的中产路

博文

2.6 流感的传播趋势的监控与预测

已有 4316 次阅读 2020-1-6 08:46 |个人分类:科技1|系统分类:观点评述


2002年左右开始的非典型性肺炎在中国的爆发,经历过的人感到记忆犹新。十几年过去了,我们的医学与生命科学的研究也有了长足的进步,2018年中国在医学方面的发表的论文增长为2002年的8倍有余,而生化、基因与分子生物学的论文更是增长了10倍以上[1]。除了这些生命科学机理上的研究,伴随着计算机信息与网络技术的发展,流行病和传染病(epidemic/infectious disease)的监控与预测也有了一些新的发展与进步。本文以流感为例介绍一些传染病监控与预测的基于大数据的一些研究方法和进展,探索一些可以采取的疾控措施。

流感是世界上重要的致病与致命的原因之一,而且造成了巨大的经济损失:流感每年在全世界范围内约造成25-50万的死亡人数,每年仅在美国便导致800多亿美元的经济负担[2]。在高峰季节,流感病人还会造成急救部门的拥挤,从而影响其他重症病人的救治。如果能够更好地预防、预测和治疗流感,对于人们的健康与经济财产都是有益的。

历史上,1918年发生的西班牙型流感大流行(pandemic),造成了大约全球5000万人的死亡。100年后,《科学》杂志的社论,引用哲学家乔治·桑塔亚那(George Santayana)的名言,那些不能铭记过去的人注定要重蹈覆辙,来告诫人们,尽管现在的我们对于传染性疾病的准备好了不少,但是我们仍需要全球性的承诺与病毒数据共享、支持创新研究、更多的资源投入等等才能更好地预防可能到来的下一次的大流行病[3]

传染病学家(epidemiologist)有一个愿景,希望在不远的将来,能够将流行病的预测推动到天气预报相似的可信度(confidence[4]。比较有趣的是,减轻流感传染的两个主要切入的角度也与天气的研究类似:一个是机理性的研究,通过基因测序等科技手段分析出病毒的特征,从而制造出解药(抗病毒的药物与流感疫苗等),主动应对流感病毒的传播,对应于天气干预中的人工降雨、降雪等;而当流行流感病毒的疫苗无法研制出来的时候,流感传播的趋势预测则变得极为重要,类似于没有现代科技手段干预台风的时候,天气预报给出的台风的演化路径与强度等的预警,人们可以做好预防工作,从而减少经济损失。由于笔者的知识背景与文献调查范围所限,下文主要讨论基于数据的流感趋势的预测。一个暖心的流感预测的实际应用场景大致如下的,如果你90岁年龄的祖母想要去看看她在辛辛那提的姐姐,但是如果你知道流感在下星期或者下下星期会大规模爆发,那么你应该(为了她的健康着想),劝说祖母推迟旅行计划”[5]

流感的预测既然有这么多的益处,那么如何利用大数据的有关方法进行传播趋势的预测呢?在天气的预测中,我们需要雷达,气象卫星云图,气压等不同类型的实时监测数据,然后利用流体动力学的方程,预测推断下一个天气状态,当然因为不确定度等的影响,这些预测的新状态仍然需要监测数据的反馈(数据同化,data assimilation),以免造成失之毫厘谬以千里的后果。

同样的,流感的预测也需要监测数据来作为预测的第一步。美国疾控中心(CDCcenter for disease control) 提供了(类似)流感病患(influenza-like illness)的地区分布的监测数据[6]。但是这个监测数据存在两个问题,只统计了去医院寻求救助的病患(不少流感病患不一定去医院,只是在家休息,甚至带病上班),由于数据采集、汇报、统筹与管理层级等问题,造成了数据相对于实时的流感分布的延迟,这个延迟可以达到一两周之久[7]。由于疾控中心的流感病患的统计数据成本较为高昂,而且相对于天气预报中不同维度的数据(比如降雨,降雪,气压,风速,云图等)比较单一,所以需要不同来源的数据进行补充,从而提高监测数据的质量。研究人员发现,比较容易低成本获取的开源的维基百科(Wikipedia)关于流感相关词条的的查询访问数据、推特(Twitter)的用户在社交网络发布的有关流感的消息,与流感患者数量有很高的相关性,可以改善预测的流感趋势[7,8]。这些不同的数据来源,可以给出一个比较好的不同地区的流感的大致数量分布的时间序列(在不同时间的监测数据)。

基于这些数据,流感预测的方法主要可以分为机理性模型(mechanistic models)与统计模型(statistical models,也称做现象学模型,phenomenological models) [9]。机理性模型又可以细分为隔室模型(compartmental models)与代理基模型(agent-based models), 而统计模型可以细分为直接回归模型(direct regression models)和时间序列模型(time series models)等等。限于篇幅与大量数学内容的技术细节,故不在此展开,有兴趣的读者可以参考引用文献[7,8,9]中所引用的文献。这些流感预测的研究,有什么有意思的发现,又对我们有什么启示呢?

流感趋势预测研究的质量,在现阶段,强烈依赖于好的监测数据[10]。事实上,谷歌的数据科学家们,最早在2008年便开始利用网络查询与搜索的数据来进行流感趋势的预测(谷歌公司在2015年停止了谷歌流感趋势的支持与发布)。但是很不巧的是,谷歌流感趋势,没有成功地预测20094月份的H1N1流感的大流行,而后期则又夸大了流感扩散的严重程度,流感词汇的网络搜索量一般而言与流感病患数量有比较好的相关性(但是对于不常见的传染病,比如登革热等,则由于噪音等误差的影响,相关性可能不高)。由于人们对于流感等类似词组的搜索量会受到媒体关于流感爆发的报道的影响,而给出错误的估计。所以网络搜索的数据也需要其他数据进行对比(corroborate)。针对这一个问题,有欧洲的研究人员直接去源头采集数据,利用智能手机app的方式,寻找不同地区的志愿者汇报身边所发现的流感病例,类似于不同地区的气象观测站一样,从而进行数据的修正[4]

中国的公共卫生科学数据中心,将不同的传染性疾病的监测数据放在网络上供研究人员查阅[11]。在2002年非典流行的时候,因为疾控中心公开疫情数据,人们反而因为这透明性,变得众志成城、更加团结,少了恐慌。关于数据来源我们还有不少可以努力的方向。维基百科的访问数据已经显示出在流感预测的优势,我们也需要自己的优质的网络百科(百度百科、互动百科等页面质量与维基百科差距较大)。

或许我们还可以利用药房的销售数据(由于电子化,或许比医院数据中心更加方便),进行流感与其他疾病分布的修正,(或许会有未染病的人因为媒体的报道而增加网络相关词句的搜索,但是很少有未染病的人主动服用治病的药物)。而且药房的分地区销售数据,也可以作为社会健康的大数据来源,进行更好地生产补给,而且也可以更好地进行医学科普教育。如果病毒引发的感冒盛行,但是药房的抗生素(antibiotics,抵抗细菌)销量大幅增加,说明我们关于滥用抗生素的现象还需要进一步改进。美国类阿片药物的滥用,如果有好的药房销售数据的支撑,或许也可以提早防范,甚至可以防止一些药物材料被大量购买用于制造安非他命等毒品。

中国的传染病学的研究与发达国家还有比较大的差距,例如2018年中国在SJR统计的传染病学领域发表的论文比美国的1/7还略少[1]。中国的疾控中心可以借鉴美国疾控中心的策略:在比较缺少相关研究人才与技术的时候,通过公开的竞赛,邀请不同学术界与工业界的相关人士参与,集思广益,然后每年通过公开发表的论文,很好地解决了科研继承性、可重复性、还有公开性的优势[12]。通过公开的竞赛可以培养人才,获得新的研究成果,对于跨领域的其他传染病预防等都有助益。

流感的防治是一个跨学科的研究,需要统计、医学、计算机等不同领域的人才进行合作,甚至气象方面的研究人员。一些比较新颖的流感趋势预测方法,起源于天气预报领域的研究方法,比如数据同化(data assimilation)中的集合卡尔曼滤波器(ensemble Kalman filter)[13,14]。这些以前看似并不相关的领域,因为研究人员的拓展而变得更加明朗起来。

2017,一片中科研主导的国际合作的研究,终于找到了爆发的非典型肺炎的源头,是来自云南一个洞穴中的蝙蝠携带的病毒的毒株(strain),为2002年开始的流行病画上了一个句号,但是这项研究也警示我们发现类似非典的疾病的风险依然存在[15]。希望我们的传染病研究越来越好,而普通人也因为更多公开透明的数据而更加理性,更好地预测和防范未来可能发生的传染性疾病。

 

引用文献:

[1] 期刊与国家排名,SJR: Scimago Journal & Country Rank, 医学领域的科研论文(2018年与2002年),Scientific papers published in the field of Medicine, https://www.scimagojr.com/countryrank.php?area=2700&year=2002 https://www.scimagojr.com/countryrank.php?area=2700&year=2018

生化、基因与分子生物学的科研论文(2018年与2002年)Scientific papers published in the field of Biochemistry, Genetics and Molecular Biology, https://www.scimagojr.com/countryrank.php?area=1300&year=2002 https://www.scimagojr.com/countryrank.php?area=1300&year=2018

医学领域的传染病学分之的科研论文(2018年)Scientific papers published in the subcategory of epidemiology of medicine.

https://www.scimagojr.com/countryrank.php?category=2713&area=2700

202014日最后访问

[2] 世界卫生组织,季节性流感报告,211页, 日内瓦,瑞士。WHO. (2009). Influenza (seasonal). fact sheet no. 211. World Health Organization, Geneva, Switzerland. http://www.who.int/mediacentre/factsheets/fs211/en/index.html 202014日最后访问

[3] 贝尔瑟,汤裴,1918流感,100年以后,科学,359卷,255页,2018年。Belser, J. A., & Tumpey, T. M. The 1918 flu, 100 years later. Science, vol 359, page 255 (2018).

[4] 艾森斯坦,流感的多云,自然555卷,S2页,2018年。Eisenstein, M. Cloudy with a chance of flu. Nature, vol 555, p:S2, (2018)

[5] 凯特·夏日丹,2017流感:什么时候达到高峰,什么时候结束,新闻周刊,技术与科学,2017年。Kate Sheridan, flu 2017: when the season will peak and when it will come to an end, Newsweek, tech & science, 12/21/17

https://www.newsweek.com/when-will-flu-season-be-worst-these-researchers-think-they-might-know-754603 202014日最后访问

[6] 美国疾控中心,美国流感监测的概览,2012年。CDC. (2012). Overview of influenza surveillance in the united states. US Centers for Disease Control and Prevention. http://www.cdc.gov/flu/pdf/weekly/overview.pdf 202014日最后访问

[7] 西克曼等,使用维基百科来预测2013-2014流感季节,PLoS 计算生物学,11卷,e1004239页,(2015年)。Hickmann, K. S., Fairchild, G., Priedhorsky, R., Generous, N., Hyman, J. M., Deshpande, A., & Del Valle, S. Y. (2015). Forecasting the 2013-2014 influenza season using wikipedia. PLoS Comput Biol, 11(5), e1004239

[8] 保罗,德拉徳兹,布朗尼托乌斯基,推特改进流感预测。PLoS 现代,卷6,2014年。Paul, M. J., Dredze, M., & Broniatowski, D. Twitter improves influenza forecasting. PLoS currents, 6 (2014).

[9] 布鲁克斯,玄,梯布西拉尼,罗森菲尔德,使用迭代的每周分布进行非机理性的季节性流感预测,PLoS 计算生物学,14卷,e10061342018年。Brooks, L. C., Farrow, D. C., Hyun, S., Tibshirani, R. J., & Rosenfeld, R. (2018). Nonmechanistic forecasts of seasonal influenza with iterative one week ahead distributions. PLoS computational biology, 14(6), e1006134.

[10] 福尔摩斯,兰宝特,安德森,大流行病:花在监测而不是预测上,自然,558卷,180页,2018年。Holmes, E. C., Rambaut, A., & Andersen, K. G., pandemics: spend on surveillance, not prediction. Nature, vol 558, p 180 (2018)

[11] 中国的公共卫生科学数据中心 http://www.phsciencedata.cn/Share/ 202014日最后访问

[12] 美国疾控中心的流感预测的努力,About CDC’s Flu Forecasting Efforts https://www.cdc.gov/flu/weekly/flusight/about-flu-forecasting.htm 202014日最后访问

[13] 杨,利夫希茨,夏曼,季节性流感传播的动力学推测,美国国家科学院院刊,112卷,2723,2015年。Yang, W., Lipsitch, M., & Shaman, J. (2015). Inference of seasonal and pandemic influenza transmission dynamics. Proceedings of the National Academy of Sciences, 112(9), 2723-2728.

[14] 安德森,用于数据同化的集合修正卡尔曼滤波器,天气评论月刊,129卷,2884页,2001年。Anderson, Jeffrey L. "An ensemble adjustment Kalman filter for data assimilation." Monthly weather review 129, no. 12 (2001): 2884-2903.

[15]胡等,蝙蝠非典相关的冠状病毒的基因库的有力发现提供了非典冠状病毒起源的远见,PLoS病原,13卷,e1006698页,2017年。 Hu, B., Zeng, L. P., Yang, X. L., Ge, X. Y., Zhang, W., Li, B., ... & Luo, D. S. (2017). Discovery of a rich gene pool of bat SARS-related coronaviruses provides new insights into the origin of SARS coronavirus. PLoS pathogens, 13(11), e1006698.




https://wap.sciencenet.cn/blog-3116575-1213044.html

上一篇:2.5 基础科研值得重视、但是应用科研更需要策励追赶
下一篇:2.7 科技界需要支持更好的“软件”基础设施建设

14 石晓燕 范振英 王晨 朱晓刚 王安良 李毅伟 杨正瓴 杨学祥 郑永军 尤明庆 晏成和 刘炜 郭奕棣 苏保霞

该博文允许注册用户评论 请点击登录 评论 (9 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-9-18 22:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部