||
GRNFormer:基于图 Transformer 的精确基因调控网络推理
基因表达数据为不同细胞类型、组织和条件下的转录活性提供了关键洞察,反映了基因组在响应内源性和外源性信号时的动态调控。RNA 测序,特别是单细胞分辨率的测序,通过实现对整个转录组的全面、高通量分析,彻底改变了转录组学。基因表达受一系列复杂的分子机制调控,这些机制控制着基因转录过程。转录因子(TFs)通过结合位于基因启动子附近或内部以及远端增强子区域的特定 DNA 基序,通过激活或抑制基因表达来调控转录。这些分层控制系统维持细胞身份,支持发育转变,并使细胞能够响应环境刺激。
精确的基因调控对于生物过程至关重要。失调会导致包括癌症、神经退行性疾病和发育障碍在内的病理状况。通过基因调控网络(GRNs)在网络水平上理解基因调控,可以阐明协调细胞功能的基因和蛋白质之间的相互作用。GRN推理能够识别关键的调控驱动因素和通路,为机制洞察和治疗靶向提供基础。
然而,从基因表达数据中推断基因调控网络(GRNs),特别是从 RNA-seq 等高通量平台获取的数据,仍然是一个主要挑战。传统方法,如基于相关性的方法或简单的统计模型,往往难以捕捉基因调控的非线性、情境特异性特征,包括反馈回路和组合控制。更高级的方法——如 ARACNE 和 CLR等信息理论框架,或贝叶斯网络——可以建模复杂的依赖关系,但通常需要较大的样本量并面临可扩展性限制。动态模型,包括布尔网络和基于微分方程的方法,提供了时间维度上的见解,但依赖于时间序列数据,而这类数据往往缺乏。这些挑战进一步加剧,因为 RNA-seq 数据具有高维性、噪声性和样本限制,导致许多推断方法容易过拟合。BEELINE 基准研究强调了这些问题,表明传统的统计方法和浅层学习方法难以在多样的调控情境中泛化。
为解决这些挑战,研究人员开发了新的方法,特别是基于深度学习的方法。这些方法能够从高维数据中学习复杂的非线性模式,因此更适合从 RNA-Seq 数据中推断基因调控网络。最新的深度学习模型,如 Transformer,能够整合多种类型的生物信息,从而提供更准确和稳健的基因调控相互作用预测。Transformer 是像 ChatGPT 这样的高端大型语言模型的核心,通过“注意力”机制革新了分析输入信息的方式。注意力机制能够捕捉全局和局部信息,同时强调对学习重要的特征。目前已开发出一些基于 Transformer 的 GRN 推断方法,例如 STGRNs和 scGREAT。
图神经网络(GNNs)也已成为推断调控网络(GRNs)的一种潜在工具,补充了基于Transformer的方法。GNNs 设计用于在图结构数据上运行,其中节点代表实体,边象征它们的关系。GNNs 擅长建模基因相互作用的复杂配置,其特征是转录因子和靶基因之间的调控连接。通过在这些图中传播信息,GNNs 可以识别 GRNs 的拓扑特征,揭示关键调控因子,阐明对基因表达至关重要的复杂层次调控相互作用。此外,GNNs 有效捕获局部相互作用和全局结构,使其成为阐明 GRNs 中生物学通路和功能模块的可靠工具。
然而,大多数 GRN 推断方法都是针对特定数据集设计的,限制了它们在细胞类型或条件间的泛化能力。因此,迫切需要具有鲁棒性和可迁移性的模型,这些模型能在上下文中可靠地表现。
最近,Hegde等人介绍了 GRNFormer(图1,),这是一个用于从单细胞 RNA 测序数据中准确和泛化地推断基因调控网络(GRNs)的图 Transformer 框架。GRNFormer 结合了图神经网络(GNNs)和 Transformer 架构的优势,以建模基因的动态表达谱和调控相互作用的底层拓扑结构。通过结合 GNNs 的局部结构建模以及通过 Transformer 的注意力机制进行的相关信息的蒸馏和整合,GRNFormer 显著提高了现有方法的推理性能。尽管主要开发用于单细胞转录组学,但它能够有效地泛化到bulk RNA-seq 数据中,突出了该框架跨数据模式和物种的鲁棒性和可扩展性。
图1 GRNFormer流程。GRNFormer 是一个图深度学习框架,用于从单细胞或bulk转录组数据中高精度、泛化性强的推断 GRNs。该框架设计用于跨不同细胞类型、物种和调控环境运行,通过包含三个主要组件的模块化架构,解决了 GRN 推断中的关键挑战,如情境特异性、数据稀疏性和模型可迁移性。首先,TFWalker 引入了一种以转录因子为中心的子图采样方法,该方法从完整的基因共表达网络(GCEN)输入中构建局部基因共表达子图,捕捉每个转录因子周围的邻域上下文。这种基于生物学的策略通过关注基因表达空间中的转录因子驱动结构,增强了模型学习有意义调控模式的能力。其次,通过两个关键模块实现端到端的表征学习:基因转码器,一个基于 Transformer 的嵌入模块,能够捕获跨不同数据集的上下文感知基因表征;以及 GraViTAE(图变分 Transformer 自编码器),它联合编码节点和边特征以重建基因调控特征表征。第三,一个专用的 GRN 推理模块整合节点和边信息以预测转录因子-靶标相互作用。这种推理策略使 GRNFormer 能够有效泛化输入大小、数据模态和调控框架,包括基于 ChIP-seq 和 STRING衍生的网络。通过结合基于 Transformer 的上下文学习与图感知架构,GRNFormer 能够从单细胞或bulk RNA-seq 数据中实现可扩展、可迁移和可解释的 GRN 推理
参考文献
[1] Akshata Hegde, Jianlin Cheng. GRNFormer: Accurate Gene Regulatory Network Inference Using Graph Transformer. bioRxiv, 2025.01.26.634966; doi: https://doi.org/10.1101/2025.01.26.634966
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-9 18:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社