||
样本特异性共表达网络的贝叶斯推断
人类大多数性状和疾病并非由单个基因驱动,而是由基因和蛋白质相互作用形成的网络所调控。理解基因在不同条件下如何相互作用和协同工作,是解析细胞过程复杂性和各种疾病中其失调机制的核心挑战。使用“limma”或“voom”等传统工具进行差异表达分析,使我们能够研究由疾病引起的基因表达变化,同时调整协变量的影响,包括年龄和性别。然而,仅凭转录水平的差异往往无法解释比较组之间的生物学差异。
共表达网络表示基因在不同生物样本中的协同表达模式,可以揭示在不同生物状态下同时被激活的过程。然而,大多数构建共表达网络的方法为整个群体估计一个总网络,因此无法捕捉到个体样本中存在的异质性、特定情境的基因相互作用。
为解决这些局限性,已提出一些推断样本特异性网络的方法。这包括单 Pearson 相关系数(SPCC),它使用 Z 检验来估计样本特异性相关性的显著性;线性插值以获得单个样本的网络估计(LIONESS),它被开发用于推断样本特异性基因调控网络(GRN),但也已应用于 Pearson 相关系数;以及样本特异性加权相关网络(SWEET),它修改了 LIONESS 方程以考虑数据集子群体中的规模不平衡。
尽管有用,但这些方法可能产生不是半正定或产生超出定义范围的相关性度量值(例如,皮尔逊相关系数的[−1, 1]范围)的共表达矩阵。由于相关性矩阵在定义上就是半正定的,这种非半正定性可能在下游分析中带来挑战。例如,如果估计的共表达矩阵不是半正定的,某些基因表达的线性投影,包括多个主成分(PC),可能会有负方差估计。在更极端的情况下,某些个体的某些基因表达值的方差可能为负,从而使得不确定性量化成为不可能。或者,其他用于通过样本特异性网络和癌症特异性或群体特异性网络进行疾病个性化表征的方法,相对于外部参考群体表现出差异网络,因此容易根据所使用的参考而变化推断。
Saha等人开发了通过整合组学数据获得的贝叶斯优化网络方法BONOBO,这是一个经验贝叶斯模型,能够推导出特定样本的共表达网络(图 1),从而帮助发现在不同条件和表型中差异共调节的基因对,同时消除混杂因素的影响。BONOBO 仅从输入数据中推导出半正定共表达网络,而无需使用外部参考数据集。这一独特特性使 BONOBO 能够捕捉到在不同数据集和多个批次中保持一致且可比的关联结构,为关联网络分析提供了一种稳健的工具,并为 GRN 推断工具提供了有意义的关联网络。BONOBO 为每个关联矩阵推导出后验概率分布,使我们能够检验数据中任何基因对在特定样本内是否存在非零关联的假设。基于这一假设检验的结果,通过剪除非显著边,可以推断出特定样本的稀疏共表达网络。这一点对于可解释性尤为重要,因为实证数据表明,生物基因网络是稀疏连接的。
图1 BONOBO 示意图。BONOBO 需要基因表达矩阵作为输入,希望提取样本特异性相关网络。然后,对于每个样本,BONOBO 通过使用基于 N-1 个样本计算的 Pearson 相关矩阵和特定样本的均方偏差来推断网络。BONOBO 输出 N 个共表达网络,每个样本一个,以及每个基因-基因估计边的相关 p 值
BONOBO 的一个关键优势在于其能够捕捉群体中个体间共表达模式中的固有异质性,这些异质性可归因于一系列生物和环境因素。例如,在比较不同条件下的整体共表达网络时,如区分健康与疾病或男性和女性样本结果经常受到研究群体异质性的干扰,这种异质性源于干扰参数,如批次效应或混杂的临床协变量,这些协变量可能包括性别或年龄。BONOBO 的个体样本特异性方法明确地模拟了这种异质性,从而能够更深入地理解不同生物状态下潜在的基因网络。此外,BONOBO 推导出的个体样本特异性共表达网络可用于通过将 BONOBO 网络作为输入来推断样本特异性 GRN,例如使用 PANDA、OTTER和 EGRET等方法。
通过多个模拟和真实数据集展示了 BONOBO 的优势。首先,使用模拟数据比较了 BONOBO 恢复“已知”样本特异性共表达矩阵的能力与其他推断样本特异性网络方法的能力。接着,将 BONOBO 应用于酵母扰动实验的基因表达数据,并表明它比其他方法更一致地捕捉全局特性,且能够区分单个转录因子敲除(KO)的样本特异性效应。随后,利用 BONOBO 构建的个体特异性共表达网络,考察了 miRNA 与 mRNA 表达在多种人类乳腺癌亚型中的相互作用,发现 miRNA 表达与免疫通路之间的相关性模式在 Luminal A 和 Luminal B 乳腺癌亚型中具有预后意义。最后,分析了基因调控中的性别差异,使用了来自健康人类甲状腺组织的 RNA 测序数据。使用 BONOBO 网络作为输入,输入到 PANDA 中,推断出个体特异性 GRN,并比较了男性和女性之间的这些 GRN,识别出免疫反应、细胞增殖和代谢过程中的调控差异,从而为甲状腺疾病(如甲状腺功能减退和桥本氏病)发病率中的性别差异提供了一种可能的机制。
BONOBO 可通过 Network Zoo(netZooPy v0.10.0;https://netzoo.github.io)以开源代码形式获取。
参考文献
[1] Saha E, Fanfani V, Mandros P, Ben Guebila M, Fischer J, Shutta KH, DeMeo DL, Lopes-Ramos CM, Quackenbush J. Bayesian inference of sample-specific coexpression networks. Genome Res. 2024 Oct 11;34(9):1397-1410. doi: 10.1101/gr.279117.124.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-9-28 03:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社