博文

借助因果差异网络识别生物扰动靶标

已有 3315 次阅读 2025-6-17 21:15 |个人分类:科普|系统分类:科普集锦

借助因果差异网络识别生物扰动靶标

细胞构成生物系统的基础，它们在其一生中都经历了多种动力状态。除了细胞周期之类的自然因素外，外部扰动（例如药物、基因敲低）还可以改变细胞状态。虽然扰动可以影响许多下游变量，但从细胞重编程到阐明作用机制，确定诱发这些转变的根本原因或目标具有巨大的治疗意义。

机器学习方法主要是为了推断扰动对细胞的影响，目的是概括看不见的扰动或看不见的细胞分布。原则上，这些模型可在主动学习框架内使用以发现干预目标。但是，候选集数量与考虑的变量数量呈指数级关系，并且组合扰动的训练数据有限。因此，对于较大的搜索空间，这些模型几乎是不切实际的。

或者，某些方法通过比较“前”和“后”细胞状态对来预测目标。他们通过将观察到的差异归因于稀疏的机械变化来做到这一点。具体而言，变量之间的关系通过图表示，例如基因调节网络。现有方法通常将数据挖掘关系用作该图的先验信息，并为最能解释扰动数据的边缘寻找变化。但是，生物知识图是不完整且嘈杂的先验信息。它们包含异质性和潜在的信息。此外，不同的细胞群可能会表现出不同的基因调控行为，导致知识不完整，尤其是对较差的系统。

最近，Wu等人提出了因果关系差异网络（图1，CDN，https://github.com/rmwu/cdn）：一种因果关系启发的方法，用于识别驱动细胞状态中所需转移的变量，同时直接从数据中估算其机械结构。给定一对观测和扰动数据集，CDN训练一个因果结构学习，以预测可能生成每个数据集的因果图。这对图是对基于注意的分类器的输入，该分类器预测每个变量是否受到干预。为了解决数据噪声和稀疏的挑战和模拟生物学干预措施的结构，这些模型是在数以千计的合成或真实数据集的有监督框架中共同训练的。

图1 CDN由因果结构学习和差异网络组成。包括黄色（因果结构学习）和绿色（差异网络）两部分

在实际转录组和合成数据上评估CDN发现，CDN的表现优于最先进的扰动建模（深度学习和统计方法），而无需使用任何外部知识。在合成数据设置上，CDN在估计未知干预靶标方面，也优于因果发现方法。

参考文献

[1] Wu M, Padia U, Murphy S H, et al. Predicting perturbation targets with causal differential networks. arXiv preprint arXiv:2410.03380, https://doi.org/10.48550/arXiv.2410.03380, 2025.

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC