张俊鹏
MPAC:多组学数据中推断通路活性
2025-7-16 10:24
阅读:285

MPAC:多组学数据中推断通路活性 

癌症是一组基因组变异和信号通路变化多样的复杂疾病。癌症基因组图谱(TCGA)生成了数千个肿瘤样本的拷贝数改变(CNA)、DNA突变、DNA甲基化、mRNA表达、微小RNA表达和蛋白质表达的数据,从而对所描述的癌症有了许多见解。此外,这些广泛的多组数据为肿瘤调节提供了线索,这导致了许多计算方法的发展,这些方法整合多组数据以获得关于癌症的全面观点。 

特别是,基于生物通路的方法已被证明是整合多组学数据的有力方法。同一通路中不同基因的表达或功能改变会对整体通路活性产生类似的影响。同样,同一基因或其蛋白质产物的表达或功能的不同改变,例如通过DNA突变、CNA或表观遗传修饰、转录表达或蛋白质翻译、稳定性或翻译后修饰的改变,也可以抑制、激活或以其他方式调控特定通路。这些特性允许基于多组学输入进行建模,以推断通路活性,从而比基于单一基因组数据类型的狭隘、不完整视图进行建模更准确地反映潜在的生物学。因此,尽管单一的数据类型很少包含对癌症发生的完整解释,但基于通路的方法是理解癌症机制的一种特别有利的方式。 

几个著名的基于通路的方法已经证明了多组学数据集成对癌症解释的好处。例如,多组学主调控分析(MOMA)在20TCGA队列中鉴定出112种不同的肿瘤亚型和24个保守的主调控模块。OncoSig描绘了COSMIC癌症基因普查中715种蛋白质的完整库的肿瘤特异性分子相互作用信号图。COSMOS结合了信号、代谢和基因调控网络,以捕获多组学数据内部和相互之间的串扰。使用基因组模型数据整合的通路识别算法(PARADIGM)通过因子图整合多组学数据,以推断通路网络中所有蛋白质的活性。最初,PARADIGM成功应用于乳腺癌症和胶质母细胞瘤患者,使用CNA和基因表达微阵列数据来寻找临床相关组和相关通路。它被进一步应用于揭示胶质母细胞瘤、卵巢癌和肺癌中的多种低频但高影响的突变,并被纳入标准TCGA分析管道。 

尽管取得了这些成功,但仍然有机会进一步改进多组学数据建模。MOMAOncSig专注于围绕转录主调控因子的直接相互作用。未考虑生物通路中主调控因子下游蛋白质的间接影响。PARADIGM在许多癌症类型中的应用侧重于根据推断的通路水平或富集通路对患者进行分组。但是,缺乏对患者分组的分子基础的深入分析、对其推断的通路水平的仔细解释以及端到端的计算过程。PARADIGM推断的通路水平是抽象的量,表明蛋白质被激活或抑制的对数似然比,但它们既不代表蛋白质丰度,也不代表任何特定的翻译后修饰,无法通过实验测量。其他现有的多组学数据患者分层方法要么不使用生物通路信息,要么依赖不切实际的小通路。因此,很难从有意义的生物学解释和临床意义的广泛角度识别关键蛋白。 

最近,Liu等人开发了一个名为细胞多组学通路分析(MPAC,图1https://bioconductor.org/packages/MPAC/)的计算框架,用于整合多组学数据以理解细胞网络。它建立在PARADIGM方法的基础上,并进行了显著的改进,包括为基于通路的患者群体的分子基础和临床意义提供了更深入的见解,并简化了整个计算过程。作者们将MPAC应用于全球每年约有50万人死亡的头颈部鳞状细胞癌(HNSCC)。首先,作者们描述MPAC如何改进PARADIGM。此外,将MPAC应用于TCGA HNSCC数据,并根据患者显著改变的通路对其进行分组。在其他结果中,MPAC预测了一个富含免疫反应通路的患者群体,而这个群体不能仅从个体基因组数据类型中预测。对这一组的研究确定了七种与更好的总体生存率相关的激活通路水平的蛋白质。这些发现得到了TCGA HNSCC样本的验证。作者们通过证明PARADIGM不能识别这种免疫反应群来证明MPACPARADIGM的改进。此外,作者们还通过在不同设置和另一种TCGA癌症类型(胆管癌)中运行MPAC来评估MPAC的稳健性。最后,MPAC还有一个交互式R Shiny应用程序,让用户探索这项工作产生的所有结果。 

image.png

1 MPAC工作流程概述。MPAC根据真实和置换的CNARNA数据计算推断的通路水平(IPL)。它使用置换的IPL过滤真实的IPL,以去除伪IPL。然后,MPAC专注于具有过滤IPL的最大通路子集网络,以计算基因本体论(GO)术语富集,预测患者群体并识别关键群体特异性蛋白质 

参考文献

[1] Peng Liu, David Page, Paul Ahlquist, Irene M. Ong, Anthony Gitter. MPAC: a computational framework for inferring pathway activities from multi-omic data.  bioRxiv, 2024.06.15.599113; doi: https://doi.org/10.1101/2024.06.15.599113 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

 image.png

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1493875.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:2
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?