zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

样本特异性共表达网络的贝叶斯推断

已有 1005 次阅读 2025-9-25 10:54 |个人分类:科普|系统分类:科普集锦

样本特异性共表达网络的贝叶斯推断 

人类大多数性状和疾病并非由单个基因驱动,而是由基因和蛋白质相互作用形成的网络所调控。理解基因在不同条件下如何相互作用和协同工作,是解析细胞过程复杂性和各种疾病中其失调机制的核心挑战。使用“limma”“voom”等传统工具进行差异表达分析,使我们能够研究由疾病引起的基因表达变化,同时调整协变量的影响,包括年龄和性别。然而,仅凭转录水平的差异往往无法解释比较组之间的生物学差异。 

共表达网络表示基因在不同生物样本中的协同表达模式,可以揭示在不同生物状态下同时被激活的过程。然而,大多数构建共表达网络的方法为整个群体估计一个总网络,因此无法捕捉到个体样本中存在的异质性、特定情境的基因相互作用。 

为解决这些局限性,已提出一些推断样本特异性网络的方法。这包括单 Pearson 相关系数(SPCC),它使用 Z 检验来估计样本特异性相关性的显著性;线性插值以获得单个样本的网络估计(LIONESS),它被开发用于推断样本特异性基因调控网络(GRN),但也已应用于 Pearson 相关系数;以及样本特异性加权相关网络(SWEET),它修改了 LIONESS 方程以考虑数据集子群体中的规模不平衡。 

尽管有用,但这些方法可能产生不是半正定或产生超出定义范围的相关性度量值(例如,皮尔逊相关系数的[−1, 1]范围)的共表达矩阵。由于相关性矩阵在定义上就是半正定的,这种非半正定性可能在下游分析中带来挑战。例如,如果估计的共表达矩阵不是半正定的,某些基因表达的线性投影,包括多个主成分(PC),可能会有负方差估计。在更极端的情况下,某些个体的某些基因表达值的方差可能为负,从而使得不确定性量化成为不可能。或者,其他用于通过样本特异性网络和癌症特异性或群体特异性网络进行疾病个性化表征的方法,相对于外部参考群体表现出差异网络,因此容易根据所使用的参考而变化推断。 

Saha等人开发了通过整合组学数据获得的贝叶斯优化网络方法BONOBO,这是一个经验贝叶斯模型,能够推导出特定样本的共表达网络(图 1),从而帮助发现在不同条件和表型中差异共调节的基因对,同时消除混杂因素的影响。BONOBO 仅从输入数据中推导出半正定共表达网络,而无需使用外部参考数据集。这一独特特性使 BONOBO 能够捕捉到在不同数据集和多个批次中保持一致且可比的关联结构,为关联网络分析提供了一种稳健的工具,并为 GRN 推断工具提供了有意义的关联网络。BONOBO 为每个关联矩阵推导出后验概率分布,使我们能够检验数据中任何基因对在特定样本内是否存在非零关联的假设。基于这一假设检验的结果,通过剪除非显著边,可以推断出特定样本的稀疏共表达网络。这一点对于可解释性尤为重要,因为实证数据表明,生物基因网络是稀疏连接的。 

image.png 

1 BONOBO 示意图。BONOBO 需要基因表达矩阵作为输入,希望提取样本特异性相关网络。然后,对于每个样本,BONOBO 通过使用基于 N-1 个样本计算的 Pearson 相关矩阵和特定样本的均方偏差来推断网络。BONOBO 输出 N 个共表达网络,每个样本一个,以及每个基因-基因估计边的相关 p  

BONOBO 的一个关键优势在于其能够捕捉群体中个体间共表达模式中的固有异质性,这些异质性可归因于一系列生物和环境因素。例如,在比较不同条件下的整体共表达网络时,如区分健康与疾病或男性和女性样本结果经常受到研究群体异质性的干扰,这种异质性源于干扰参数,如批次效应或混杂的临床协变量,这些协变量可能包括性别或年龄。BONOBO 的个体样本特异性方法明确地模拟了这种异质性,从而能够更深入地理解不同生物状态下潜在的基因网络。此外,BONOBO 推导出的个体样本特异性共表达网络可用于通过将 BONOBO 网络作为输入来推断样本特异性 GRN,例如使用 PANDAOTTER EGRET等方法。 

通过多个模拟和真实数据集展示了 BONOBO 的优势。首先,使用模拟数据比较了 BONOBO 恢复已知样本特异性共表达矩阵的能力与其他推断样本特异性网络方法的能力。接着,将 BONOBO 应用于酵母扰动实验的基因表达数据,并表明它比其他方法更一致地捕捉全局特性,且能够区分单个转录因子敲除(KO)的样本特异性效应。随后,利用 BONOBO 构建的个体特异性共表达网络,考察了 miRNA mRNA 表达在多种人类乳腺癌亚型中的相互作用,发现 miRNA 表达与免疫通路之间的相关性模式在 Luminal A Luminal B 乳腺癌亚型中具有预后意义。最后,分析了基因调控中的性别差异,使用了来自健康人类甲状腺组织的 RNA 测序数据。使用 BONOBO 网络作为输入,输入到 PANDA 中,推断出个体特异性 GRN,并比较了男性和女性之间的这些 GRN,识别出免疫反应、细胞增殖和代谢过程中的调控差异,从而为甲状腺疾病(如甲状腺功能减退和桥本氏病)发病率中的性别差异提供了一种可能的机制。 

BONOBO 可通过 Network ZoonetZooPy v0.10.0https://netzoo.github.io)以开源代码形式获取。 

参考文献

[1] Saha E, Fanfani V, Mandros P, Ben Guebila M, Fischer J, Shutta KH, DeMeo DL, Lopes-Ramos CM, Quackenbush J. Bayesian inference of sample-specific coexpression networks. Genome Res. 2024 Oct 11;34(9):1397-1410. doi: 10.1101/gr.279117.124. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 



https://wap.sciencenet.cn/blog-571917-1503464.html

上一篇:估计7,000 个肿瘤的样本特异性转录网络
下一篇:TWRCI:转录组数据中推断根基因
收藏 IP: 39.128.48.*| 热度|

2 郑永军 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-9-28 03:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部