熊江辉
DamoPa:现代医学与中医融合预训练模型
2023-4-24 10:01
阅读:1985

一、概述

目前,最常用于表征疾病原因、药物作用机制的知识体系,主要由人类专家手工编辑形成的信号通路构成。DeepoMe(深度甲基)开发的DamoPa (Foundation Model for Medicine based on Pre-training),是希望用数据驱动的方式,在大规模数据集中计算得到与人类衰老、疾病病因与机制、药物作用相关的模型,形成预训练模型库。在应用中,基于本地数据(小规模数据集、甚至单个体的生物学测量),应用预训练模型,产生基于本地数据的副本,进而在本地数据上测试该模型与表型的相关性。或者生成基于内源性代谢物、营养素、药物的干预方案。

传统上,生物标志物预测模型、药物研发是两个分离的步骤。DamoPa将二者整合起来,同时表征人体生理变化的复杂性和药物作用的复杂性这两大领域。具体而言,通过枚举各个化合物及其与蛋白质相互作用子网络的组合,将可被化合物干预的基因网络特征定义为可计算单元,在衰老和各类疾病的数据中进行预训练,得到与衰老和人体健康状态变化相关的预训练模块。DamoPa包括两类模型,有参数的模型和无参数模型。

特别地,DamoPa集成了一个中医证候的映射器,将中医证候也表征为基因模块模型。因此,利用和分子生物学概念完全一致的计算流程,我们也可以评估每个个体某个中医证候,例如“寒/凉”的量化程度。进而实现个体级的中医证候判断,以及依据中医证候开具复方。

这里节选了部分内容。如需了解DamoPa技术白皮书全文,可以关注DeepoMe深度甲基公众号,输入“白皮书”即可。

二、技术架构

DamoPa的核心模块由SEMO特征生成器和中医概念映射器组成。

本文档主要使用DNA甲基化数据作为基因的测量值。理论上,这种方法适用于其他组学数据。衰老是大多数人类疾病相关的共性/驱动因素,DNA甲基化衰老时钟是目前公认最精准的生物学年龄量化技术。全血/血细胞DNA甲基化被广泛应用于各类疾病,包括肿瘤、神经精神类疾病、代谢性疾病的研究。采用信号解卷积技术,全血或唾液的DNA甲基化信号均可解析成免疫细胞组成模式,因此本框架可以应用于唾液、全血、唾液等各类样本。

…(细节请参考技术白皮书原文)

三、应用场景

应用场景分为几个板块:营养需求分析与营养干预方案生成;药物重定位与天然产物药物开发;中医证候表征与计算。

为了演示功能,本报告使用两个新冠感染的全基因组DNA甲基化数据集。其中“数据1”包括473个Covid-19阳性和101个阴性个体,全血样本采用illumina 850k芯片获得的数据,阳性病例按照WHO标准分为重症组(Severe) 和轻症组(Mild)。“数据2”包括164个阳性个体、296个阴性患者和65个其他呼吸道感染样本,全血样本采用illumina 850k芯片获得的数据。病例分为4个阶段:(1)从急诊室出院(家庭护理);(2)住院治疗;(3)ICU;(4)死亡。本演示是科学研究用途。

不限于这里演示的疾病/表型,本方法理论上适用于任何把人群分为几类表型的疾病或健康研究场景。

请注意,本文档展示这些案例及其结果,只是为了说明和演示DamoPa的功能和应用特点。计算生成的标志物、预测模型、干预方案与输入数据、计算参数等诸多因素有关,在具体应用中应当对其合理性进行进一步的过滤、验证。我们不对所提及分析结果的有效性负责。本文也没有展示产生这些结果的具体方法参数。如果您有需求,请咨询我们或阅读相关文献。

1 营养需求与干预方案生成

2 药物研发

2.1 “老药新用”

2.2 天然产物活性成分筛选

3 中医证候量化表征与计算

3.1 中医证候与新冠严重程度的相关性

由于DamoPa为每一个中医证候要素(例如“寒”)产生了一个特征基因集合。使得可以如同单一化合物的靶基因集合一样,通过与PPI的组合,形成SEMO模块,进而计算SEMO index与疾病表型的相关性。
下图显示了在数据1中,与新冠严重程度相关性最高的4个SEMO特征。分别与中医证候要素“气”、“虚”、“胆”有关。

图片 19.png

图17 发现与疾病严重程度相关的中医证候

计算出现在表型相关性最强的前300个SEMO特征中的所有PPI和中医证候要素的频率。如下图所示。出现频次最高的证候要素有:肝、里、肾、毒、心等。PTPN6基因网络是这些中医证候靶向最多的PPI。

图片 20.png


图18 当前疾病中中医证候的重要性排序

3.2 SEMO网络(PPI-中医证候连接网络)

对数据1所有样本,计算扫描所有PPI子网络与中医证候组合形成的SEMO,通过两类T检验P值(严重组与轻度组)对所有SEMO特征进行排序。
如果某PPI-某中医证候组合形成的SEMO与表型显著相关,我们就可以构建一种新类型的网络,将给定的PPI连接到相应的营养素。这种网络我们命名为SEMO网络。如下图所示。


图片 21.png


图19 SEMO网络图

在SEMO网络中,一类节点表示PPI子网络(例如CD68.N)。因此,SEMO网络是在传统PPI网络上进一步抽象提炼、形成的更高阶的网络。
上述SEMO网络中,出现了几个中心节点,例如CD36.N,表明这些蛋白质子网络与COVID-19严重程度相关,同时可以被多个中医证候靶向干预。连接度较高的中医证候节点,例如“毒”、“热”、“肺”,能靶向多个PPI子网络。

3.3 中医证候识别结果与专家共识的一致性

上述TCM证候要素的排序是否反映了与COVID-19感染症状严重程度相关的基本特征?为回答这个问题,可以从国家卫生健康委员会于2022年3月15日发布的《新冠肺炎诊疗方案(第九版)》的“中医药治疗”部分提取证候判断相关的关键词。发现频次最高的关键词有4个:“肺”(8次)、“毒”(7次)、“湿”(5次)和“热”(4次)。那么这4个关键词作为该疾病的共识性证候特征。
测试DamoPa产生的TCM术语的排名是否能识别出这四个关键词。结果显示,对所有39个证候要素关键词,做其在表型相关SEMO网络中的重要性(频次)降序排列,并选择前10个关键词,总能“检出”这四个关键词(肺、毒、湿、热)。随机置换检验值P=0.0031。

3.4 基于中医证候建立新冠严重程度预测模型

基于中医证候SEMO特征与表型的相关性,可以建立多个SEMO组成的多参数预测模型。例如,使用机器学习算法(LASSO)构建了多参数预测模型,将患者分为严重组和轻度组。在训练数据(数据1)中,曲线下面积(AUC)为81%(风险比值比odds ratio为7.7),在独立验证集(数据2)中AUC为80%(风险比值比odds ratio为4.3),如下图所示。


图片 22.png


图20 基于中医证候量化表征预测新冠严重程度

输出预测模型中的参数,发现模型所用的SEMO特征分别为(按变量权值参数绝对值降序排序):SPI1.N-气、 CD2.N-毒、ITGAX.N-肺、IL10.N-血、SPI1.N-表。

3.5 新冠感染不同阶段中医证候的变化

利用数据2中阳性病例的注释信息,分别对居家护理、住院治疗、ICU治疗、死亡组病例进行类似1.2的分析,通过频次分析计算每种中医证候的重要性。如下图所示。图中每个色块上的数字,即是该中医证候在表型相关SEMO网络中的出现频次,数字越大,重要性越高。
在第一阶段(新发感染),最重要的中医证候排序依次为肝、热、毒、心、里、肾等。如下图所示。


图片 23.png


图21 SEMO量化中医证候在疾病第一阶段(新发感染)的重要性排序

在第二阶段(住院治疗),最重要的中医证候排序依次为毒、肺、里、肝、肾等。如下图所示。


图片 24.png


图22 SEMO量化中医证候在疾病第二阶段(住院治疗)的重要性排序

在第三阶段(ICU治疗),最重要的中医证候排序依次为里、毒、肝、胆、络等。如下图所示。


图片 25.png


图23 SEMO量化中医证候在疾病第三阶段(ICU治疗)的重要性排序

五、未来发展

在科学探索方面,我们将通过与合作伙伴的紧密合作,在大规模队列数据和现实世界数据上持续反馈优化DamoPa的功能。

近年来,复杂性科学的研究表明,宏观特征有时候呈现出比微观特征更强的因果性,例如更强的表型相关性。这种现象称为“因果涌现”。随着越来越多的微观特征,例如单细胞层次特征不断出现,如何从微观特征批量生成表型相关性更强的宏观特征,将是一个具有潜力的技术方向。


图片 26.png


值得注意的是,中医证候特征,相对于蛋白质网络和专家注释的信号通路而言,是一种更抽象的宏观特征。对各种特征在因果推理中的特点进行研究,也是DamoPa的迭代进化方向。

相关资料:

DamoPa模型:因果涌现,48例样本也可以发现生物标志物,中医的DNA甲基化特征优势明显

转载本文请联系原作者获取授权,同时请注明本文来自熊江辉科学网博客。

链接地址:https://wap.sciencenet.cn/blog-508476-1385565.html?mobile=1

收藏

分享到:

当前推荐数:2
推荐人:
推荐到博客首页
网友评论1 条评论
确定删除指定的回复吗?
确定删除本博文吗?