KEGNI:知识图谱增强的基因调控网络推理框架
基因调控网络(GRN)涵盖了细胞中基因和调控因子的复杂相互作用,这对于理解生理和病理过程中细胞机制的控制和动态至关重要。单细胞测序技术使得能够进行细胞类型特异性 GRNs推断,并促进了利用单细胞组学数据构建网络推断的发展。已开发出多种算法,例如基于单细胞RNA测序(scRNA-seq)数据中的基因共表达模式开发的PIDC、SCENIC、GENIE3和 GRNBoost2。然而,这种假设可能导致假阳性增加,因为并非所有预测的关联都是因果关系。基于深度学习的计算策略在从基因表达数据中捕捉复杂和非线性依赖方面展现出强大能力。例如,scGeneRAI采用基于逐层相关性传播的可解释框架来推断GRN。STGRNS是一种基于transformer的方法,用于推断基因调控网络基于基因之间已知的关联。GENELink、GNNLink和 AttentionGRN利用图神经网络架构来整合拓扑和上下文信息。CNNC、DeepDRIM和 DeepIMAGER将基因对转换为图像般的表示,并应用卷积神经网络来捕获高阶基因相互作用,克服了基于传统共表达方法的局限性。此外,FigR、SCENIC+、LINGER和 scMultiomeGRN结合外部知识或 ATAC-seq 数据来提高 GRN 推理的准确性,并有效减少假阳性。
然而,基因调控网络推理仍需解决一些障碍。表观遗传数据对于许多细胞类型来说往往不足。通过额外工具整合未配对的scRNA-seq和scATAC-seq数据会增加额外的噪声风险。此外,用于基因调控网络推理的初始图结构通常基于 TRRUST、RegNetwork和 KEGG等数据库获得的先验基因相互作用构建。因此,这种通常将基因调控网络表述为链接预测任务的初始图,可能无法准确捕捉细胞类型特异性的调控相互作用。因此,需要一种利用scRNA-seq数据和外部信息构建全面基因调控网络的方法来克服这些挑战。最近,Li等人设计了计算框架 KEGNI(知识图谱增强基因网络推理,图1,https://github.com/Lipxiao/KEGNI),这是一个基于scRNA-seq数据和可靠基因或蛋白质相互作用整合的端到端细胞类型特异性基因调控网络推理框架。

图1 KEGNI 框架示意图。KEGNI 是一个综合框架,集成了掩码自动编码器(MAE)模型和知识图谱嵌入(KGE)模型。a 使用 k-NN 从特定细胞群体的 scRNA-seq数据中构建基础 GRN。MAE 将此基础 GRN 作为输入,专注于掩码节点特征的重建。b 使用 KEGG 通路信息和相关细胞类型标记构建细胞类型特定的知识图谱。KGE 模型采用负采样对比学习方法实现知识图谱嵌入。图中的节点代表基因。黑色空心圆表示来自单细胞谱的基因;灰色实心圆代表来自知识图谱的基因;红色实心圆表示负样本
为提升 GRN 构建性能,KEGNI 采用图自编码器来捕捉基因表达谱中基因间的关系,其中基因作为节点,基因表达作为特征。鉴于基因表达数据直接反映生物学信号,KEGNI 基于基因表达特征采用生成式自监督学习策略。受 GraphMAE启发,KEGNI重建随机掩码基因的表达,以有效学习基因表示。构建知识图谱将外部知识整合到自监督图自编码器中,并使用负采样进行知识图谱嵌入。作者们使用 BEELINE框架比较了KEGNI与8种方法的性能,该框架设计用于基于 scRNA-seq基准数据集评估GRN推理技术的准确性、鲁棒性和效率。此外,作者们还基于配对的scRNA-seq和scATAC-seq数据比较了 KEGNI 与 4 种方法。总而言之,KEGNI 在识别不同条件下关键调控驱动因素和机制方面,展现了其在精确GRN构建上的优越性能。
参考文献
[1] Li P, Li L, Nan J, Chen J, Sun J, Cao Y. KEGNI: knowledge graph enhanced framework for gene regulatory network inference. Genome Biol. 2025;26(1):294. Published 2025 Sep 22. doi: https://doi.org/10.1186/s13059-025-03780-7
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1508330.html?mobile=1
收藏