张俊鹏
AutoGRN: 基因调控网络推理的自动图神经网络框架
2025-10-12 09:32
阅读:1651

AutoGRN: 基因调控网络推理的自动图神经网络框架 

基因调控网络(GRN)是理解转录因子(TF)与其靶基因之间复杂相互作用的基础,这些相互作用驱动着细胞分化、发育和疾病进展等过程。单细胞 RNA 测序(scRNA-seq)技术的进步极大地促进了 GRNs的探索。与将样本中所有细胞视为整体以研究基因表达的批量 RNA 测序相比,scRNA-seq 技术能够分辨单细胞水平的基因表达,生成一个二维的细胞间基因表达值矩阵。这使人们能够对隐藏的动态机制进行高分辨率研究,在单细胞水平上揭示潜在的基因调控机制。然而,scRNA-seq 的优势也带来了新的挑战。与批量 RNA 测序相比,scRNA-seq 数据集通常表现出高稀疏性、更高的噪声水平、明显的 dropout 现象以及显著的细胞异质性。细胞异质性是指样本中细胞之间存在的生物学差异和多样性,即使它们来自同一生物体的同一组织。在 scRNA-seq 数据集中,这种异质性表现为基因表达谱分布模式的差异。这种组合使得固定模型架构难以泛化到不同的数据集上。 

传统的 GRN 推理方法通常依赖于基于信息论的方法。例如,以往研究假设基因相关性的强度与调控相互作用的概率之间存在线性关系,并使用皮尔逊相关系数(PCC)从数据中推断调控相互作用。非线性方法,如 ARACNE,利用互信息(MI)通过分析成对基因表达谱来捕捉超出简单相关性的更复杂相互作用。随着深度学习的出现,利用其处理高维数据集和建模复杂非线性关系的方法得到了越来越多的探索。代表性工作包括 CNNC STGRNS。在这些方法中,图神经网络(GNN)通过图结构表示调控相互作用,在建模局部依赖性和全局拓扑方面显示出巨大的潜力。基于 GNN 的方法越来越多地应用于 GRN 推理,例如 scMGATGRN,它有效地聚合了多视图图注意力网络提取的局部和更高阶邻域特征以提高准确性。GCLink将图注意力网络与图对比学习相结合,以在稀疏和少样本单细胞 RNA 测序数据上实现高精度推理。GeneLink+了缓解数据稀疏性、细胞异质性和过度平滑的挑战。 

然而,现有的 GRN 推理方法仍然面临关键挑战:固定的 GNN 架构难以适应不同 scRNA-seq 数据集中基因表达谱的差异性,导致 GRN 推理性能下降。为了直观地观察通过不同架构组件调整基因表达谱差异性的性能优势,研究者们进行了一项实验,其中对最先进的方法GMFGRN使用手动调整的架构组件进行执行。图 1 展示了不同卷积类型和融合策略下 GNN 的性能。结果表明,不同数据集上的最佳性能可能需要不同的卷积操作或融合机制。因此,有必要设计针对特定数据集的 GNN 架构以提高 GRN 推理的准确性。然而,为每个数据集手动设计合适的 GNN 架构既耗时又严重依赖专家知识。 

image.png  

1 在三个不同的 scRNA-seq 数据集上,不同卷积类型(a)和特征融合类型(b)的 AUPRC 性能比较结果 

为应对这些挑战,Gao等人提出了 AutoGRN(图2https://github.com/surqing/AutoGRN),一个用于基因调控网络(GRN)推理的自动化图神经网络(GNN)框架。与传统依赖专家设计的 GNN 架构的方法不同,AutoGRN 构建了一个包含卷积函数、激活函数和针对 GRN 推理任务的融合策略的搜索空间。通过自动化搜索过程,AutoGRN 能够适应不同 scRNA-seq 数据集中基因表达谱的特征,在定义的搜索空间内为每个数据集识别最优的 GNN 架构。 

本文的主要贡献:

l  提出了 AutoGRN,一个用于 GRN 推理的自适应框架。这是首次研究自动设计 GNN 用于从 scRNA-seq 数据集中推断 GRN

l  为加速高性能 GNN 架构的搜索,设计了一种熵约束遗传算法,该算法提高了收敛效率,并在更短的时间内实现了更好的性能。

l  在六个公开可用的 scRNA-seq 数据集上进行了广泛的实验。实验结果表明,与现有的 GRN 推理方法相比,AutoGRN 在所有数据集上都实现了最先进的性能。 

image.png

2 AutoGRN 进化搜索算法的概述,其中应用基于信息熵的约束来指导突变,通过识别不确定的基因位置,从而增强种群收敛性 

参考文献

[1] Gao J, Wu S, Xiao S, Wu Z. AutoGRN: An Automated Graph Neural Network Framework for Gene Regulatory Network Inference. IEEE J Biomed Health Inform. 2025 Sep 16;PP. doi: 10.1109/JBHI.2025.3609408. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1505608.html?mobile=1

收藏

当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?