张俊鹏
BaMANI :贝叶斯多算法因果网络推理
2025-9-8 19:42
阅读:487

BaMANI :贝叶斯多算法因果网络推理 

理解变量之间的因果关系在医学、流行病学、经济学、社会科学等领域至关重要,从观察中辨别因果关系对政策制定、干预策略和科学发现具有深远影响。因果推理领域致力于揭示这些关系,为解开观察数据背后复杂的因果网络提供方法论。 

Pearl的开创性工作为因果推理奠定了基础,引入了 do-calculus和结构因果模型,这些模型至今仍是该领域的基础。Spirtes进一步扩展了这些概念,为从观测数据中进行因果发现提供了稳健的方法。格兰杰因果性等方法阐明了时间因果关系。对于时间无结构的数据集,利用马尔可夫条件的贝叶斯因果网络有助于对因果交互进行细致的理解。然而,因果推理不仅受到概念和方法论复杂性的挑战,还受到计算需求的制约。所涉及的推理过程通常需要大量的计算资源,其规模和复杂性与数据集的大小和复杂性成正比。 

随着数据集规模的不断扩大,机器学习和统计学的进步进一步推动了结构学习和因果发现中的计算效率边界。从历史视角来看,HeckermanChickering Geiger讨论了各种旨在缓解这些计算需求设计的算法,强调了高效和可扩展解决方案的必要性。最近,开发了一系列不同的算法。例如,Grow-Shrink Markov BlanketGS)和 Incremental Association Markov BlanketIAMB)算法都旨在确定目标变量的马尔可夫毯。扩展了 IAMB 方法的 Incremental Association with False Discovery Rate ControlIAMB.FDR)集成了错误发现率控制,以减少错误的因果联系。Practical ConstraintPC.STABLE)算法提高了大数据集中的稳定性,解决了原始 PC 算法的一个关键限制。爬山算法(HC)和禁忌搜索算法(Tabu)采用启发式策略,为模型优化和探索提供了创新的解决方案。MMPC 是一种重要方法,它根据变量之间的互信息识别每个变量的潜在父节点和子节点,确保初始结构尽可能准确。最大最小爬山算法(MMHC)结合了基于约束的方法和基于评分的方法,首先使用 MMPC 算法识别候选父节点和子节点,然后在这些候选节点中进行爬山搜索。最后,受限最大化(RSMAX2)在管理复杂性的同时优化模型评分,而稳定且可解释的 HITON 父节点和子节点方法(SI.HITON.PC)通过增强 HITON 算法来获得更稳定和可解释的结果,重点在于寻找在不同数据子样本中始终出现的父节点和子节点。 

尽管现有的算法提供了一套多样化的策略,但仅依赖单一算法进行网络推理可能会无意中反映不仅限于潜在因果结构,还包括算法固有的偏差,这导致对数据中编码的因果结构的表示不完整或存在偏差。为解决这一问题,Latifizadeh等人提倡采用“集思广益”框架,假设集成方法可以减轻单个算法固有偏差对推断因果网络的影响。为此,介绍了 BaMANI(贝叶斯多算法网络推理)框架(https://github.com/latifizadehhabib/BaMANI.Package),该框架利用多种算法的优势同时减轻其偏差,以生成更全面和准确的潜在因果结构表示,特别是在复杂和高维数据集中。 

作者们通过一个使用人类乳腺癌数据的案例研究来展示这一框架(图1)。BaMANI集成方法不仅整合了各个算法的优势,还促进了一个更稳健和全面的因果网络推理模型。这种集成对于应对不同科学领域中因果推理的固有复杂性至关重要,标志着从现有的方法向前迈进了一步,这些现有方法要么依赖于单一网络学习算法,如 bnlearn 包,要么采用平均技术,如群众的智慧方法。

image.png

1 乳腺癌案例研究中 BaMANI 集成 DAG,精确揭示了分泌蛋白 CCN4 与组织微环境中细胞之间的机制性相互作用 

BaMANI是一种新的集成方法,用于贝叶斯因果网络推理,该方法利用多种算法来消除任何单个算法对推断网络结构的影响。通过整合各种算法的优势,并通过黑名单和白名单整合领域知识,BaMANI 为复杂系统中的因果关系提供了更稳健和准确的表示。将 BaMANI 应用于乳腺癌数据,展示了其在揭示肿瘤微环境中细胞类型和信号分子间有意义的因果关系方面的有效性。集成方法不仅识别了关键因果通路,还提供了对驱动癌症进展的复杂相互作用的见解,例如 CCN4 在促进间质细胞状态中的作用,以及连接恶性转化与 CD8 T细胞的非一致性前馈回路。与单个算法的比较分析表明,BaMANI 始终能识别更强的因果关系,其中超过一半的公共边在集成算法中的强度高于单个算法。这突出了集成方法在捕捉稳健因果关系方面的价值,而非依赖任何单一算法。 

虽然 BaMANI 在因果网络推理方面取得了显著进展,但有必要认识到其局限性,特别是在反馈回路和预测因果关系的实验验证方面。未来的工作应着重于扩展该方法以处理循环关系,并开发将实验验证整合到推理过程中的方法。总体而言,BaMANI 为寻求揭示复杂系统中因果关系的研究人员提供了一个强大的工具,它提供了一种更全面、更可靠的因果网络推理方法,能够为实验设计提供指导,并加深我们对复杂生物过程的理解。 

参考文献

[1] Latifizadeh, H., Pirkey, A. C., Gould, A., and Klinke II, D. J., BaMANI: Bayesian Multi-Algorithm causal Network Inference, arXiv, arXiv:2508.11741, 2025. https://doi.org/10.48550/arXiv.2508.11741 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1501024.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?