||
借助因果差异网络识别生物扰动靶标
细胞构成生物系统的基础,它们在其一生中都经历了多种动力状态。除了细胞周期之类的自然因素外,外部扰动(例如药物、基因敲低)还可以改变细胞状态。虽然扰动可以影响许多下游变量,但从细胞重编程到阐明作用机制,确定诱发这些转变的根本原因或目标具有巨大的治疗意义。
机器学习方法主要是为了推断扰动对细胞的影响,目的是概括看不见的扰动或看不见的细胞分布。原则上,这些模型可在主动学习框架内使用以发现干预目标。但是,候选集数量与考虑的变量数量呈指数级关系,并且组合扰动的训练数据有限。因此,对于较大的搜索空间,这些模型几乎是不切实际的。
或者,某些方法通过比较“前”和“后”细胞状态对来预测目标。他们通过将观察到的差异归因于稀疏的机械变化来做到这一点。具体而言,变量之间的关系通过图表示,例如基因调节网络。现有方法通常将数据挖掘关系用作该图的先验信息,并为最能解释扰动数据的边缘寻找变化。但是,生物知识图是不完整且嘈杂的先验信息。它们包含异质性和潜在的信息。此外,不同的细胞群可能会表现出不同的基因调控行为,导致知识不完整,尤其是对较差的系统。
最近,Wu等人提出了因果关系差异网络(图1,CDN,https://github.com/rmwu/cdn):一种因果关系启发的方法,用于识别驱动细胞状态中所需转移的变量,同时直接从数据中估算其机械结构。给定一对观测和扰动数据集,CDN训练一个因果结构学习,以预测可能生成每个数据集的因果图。这对图是对基于注意的分类器的输入,该分类器预测每个变量是否受到干预。为了解决数据噪声和稀疏的挑战和模拟生物学干预措施的结构,这些模型是在数以千计的合成或真实数据集的有监督框架中共同训练的。
图1 CDN由因果结构学习和差异网络组成。包括黄色(因果结构学习)和绿色(差异网络)两部分
在实际转录组和合成数据上评估CDN发现,CDN的表现优于最先进的扰动建模(深度学习和统计方法),而无需使用任何外部知识。在合成数据设置上,CDN在估计未知干预靶标方面,也优于因果发现方法。
参考文献
[1] Wu M, Padia U, Murphy S H, et al. Predicting perturbation targets with causal differential networks. arXiv preprint arXiv:2410.03380, https://doi.org/10.48550/arXiv.2410.03380, 2025.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-6-18 10:37
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社