TRIAGE:调控基因分析的R软件包
转录组学技术的最新进展彻底改变了我们在组织、单细胞和空间转录组中研究全基因组表达谱的能力。基因表达分析能够无监督地发现调控细胞生物学过程的基因程序。然而,从基因表达分析中捕获的高丰度转录本通常富含管家基因或结构基因,这些基因揭示了细胞功能的基本方面。相比之下,控制细胞状态身份的转录因子(TF)和其他调控元件通常表达水平较低,因此更难以识别。调控基因在发育和疾病过程中塑造细胞反应中起着关键作用,然而传统的 RNA 测序(RNA-seq)分析方法,如差异表达分析,往往忽略了低丰度调控元件(如 TF 和其他调控基因)的变化,并且无法有效优先考虑它们。
近年来,人们为推进调控基因分析做出了许多努力。例如,GENIE3 是一种算法,它通过基于输入基因的表达模式,利用基于树的集成方法预测目标基因的表达,从而推断基因调控网络(GRN)。GENIE3 的一个更快实现版本 GRNBoost2,使用梯度提升来推断 GRN,并为每个转录因子(TF)分配一个重要性分数。然而,GRNBoost2 依赖于一个预定义的转录因子列表来指导推断,当已知的转录因子信息不可用或稀疏时,限制了它的应用。此外仅从转录组数据中进行推断可能会因忽略其他参与基因调控的机制而引入假阳性。更先进的方法,如 Lisa,通过使用公共ChIP-seq数据和染色质可及性谱从转录组数据中推断调控网络(GRN)。应用于靶向转录因子(TF)扰动实验的基因集,Lisa 与替代方法相比,在识别转录调控因子方面显示出更高的准确性。最近,SCENIC+通过联合分析单个细胞中的染色质可及性和基因表达,将调控网络推断扩展到单细胞 RNA 测序(scRNA-seq)数据。然而,这些工具主要关注转录因子及其靶点,为更广泛的调控基因分析留下了空白,这种分析不仅应包括转录因子,还应包括非编码 RNA、信号通路成分、RNA结合蛋白和其他调控元件。
为填补这一分析空白,Zhao等人先前开发了 TRIAGE(基因表达转录调控推断分析)作为一种计算方法,高效预测控制细胞身份的基因的调控潜力。该方法基于不同细胞类型中广泛 H3K27me3 区域的联盟级沉积数据,计算全基因组抑制趋势分数(RTS),为每个基因提供一个固定的定量指标作为权重。当用作评估正交输入基因表达数据的权重时,分配给每个基因的定量值称为 TRIAGE 加权值,也称为不一致分数(DS),反映基因的潜在调控作用。在基础 TRIAGE 方法的基础上,Zhao等人开发了 TRIAGECluster 和 TRIAGEParseR,以扩展在更多样化的分析工作流程中的应用。TRIAGECluster 使用 RTS 值来优化 scRNA-seq数据的聚类分析,提升复杂样本中细胞多样性的识别。TRIAGEParseR 根据共享的表观遗传模式对基因-基因关系进行分类,以帮助将基因划分为具有功能相似性的组别。它执行主成分分析,从联盟级别的表观基因组数据中提取 H3K27me3 沉积的正交模式,并使用贝叶斯信息准则来最优地确定基因簇。TRIAGE-ParseR 随后通过搜索 STRING 数据库中的蛋白质-蛋白质相互作用(PPI)网络来评估每个基因簇,并对具有直接 PPI 相互作用的基因进行 GO 富集分析。这些方法共同代表了研究定义细胞分化和身份的调控网络的独特途径。
尽管 TRIAGE方法已被证明具有实用价值,但其应用因复杂的界面和需求而受阻。最近,Zhao等人开发了一个 R 包TRIAGE (图1,https://github.com/palpant-comp/TRIAGE_R_Package),将这些方法集成到一个用户友好的套件中,提供了一套简化的功能,允许将调控机制分析无缝集成到标准工作流程中,从而使这些功能能够为更广泛的科研人员所使用。
图1 TRIAGE R 包中功能概述。(a) 通过分析基因区域的广泛 H3K27me3 区域计算抑制趋势分数,TRIAGEgene 将此数据与基因表达数据整合以生成 TRIAGE 加权矩阵。'plotJaccard'函数以热图形式可视化组间的 Jaccard 相似性指数,'compareGO'函数比较不同基因集的 GO 富集情况,生成点图以可视化选定 GO 术语的富集模式,'topGenes'函数识别每个组中 TRIAGE 加权值最高的基因。(b) TRIAGEcluster通过识别更具体的“TRIAGE 峰”来细化细胞聚类,这些峰从 scRNA-seq 矩阵中界定出生物学上不同的细胞群体。'byPeak'函数与 TRIAGEcluster 的输出接口对接,生成峰水平的基因表达数据,'topGenes'函数促进识别每个 TRIAGE 峰中值最高的基因。(c) TRIAGEparser 以基因列表或表格为输入,识别基因簇及其基因本体。‘getClusterGenes’和‘plotGO’函数与 TRIAGEparser 的输出接口,分别用于从每个簇中提取基因以及可视化基因本体富集
参考文献
[1] Zhao Q, Shim WJ, Sun Y, et al. TRIAGE: an R package for regulatory gene analysis. Brief Bioinform. 2025;26(1):bbaf004. doi: https://doi.org/10.1093/bib/bbaf004
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1508331.html?mobile=1
收藏