张俊鹏
利用图神经网络重构基因调控网络
2024-9-30 16:29
阅读:567

利用图神经网络重构基因调控网络

基因调控网络(GRN)推理是计算生物学的一个重要研究领域。基因编码我们身体所需的大量产品,如蛋白质和RNA(核糖核酸)。一个基因的产物可以影响另一个基因,甚至可以涉及影响所有基因起源的同一基因。通过实验从基因表达数据推断整个调控网络的相互作用是不可行的。计算方法通过相关性分析等基因表达数据分析、贝叶斯网络、微分方程模型等网络推理方法,有策略地将搜索空间缩小到最可能的关系集,然后进行实验验证。这可以加快疾病预后预测的进展。

最近,Jereesh等人通过将GRN推理视为图神经网络(GNN)中的关系预测任务来处理GRN推理问题。使用GNN的主要动机在于它们能够利用两个基因及其各自相邻基因的特征来预测它们之间是否存在联系。该研究的新颖之处在于,它在多个基准数据集上使用广泛的GNN卷积层变体来推断GRN。利用图神经网络预测GRN的贡献包括以下几个方面(图1:

1. 基于GRN推理的半监督边缘分类框架的开发。

2. GNN变体、激活函数、解码器函数和特征增强技术进行了全面比较,深入了解了它们对GRN推理精度的影响。

3. 在各种模拟和真实数据集上进行了严格的测试,以评估性能和泛化能力。

image.png

1 基于GNN的图自编码器总体架构

特别地,作者们提供了构建GRN的既定技术的简要概述(图2)。

image.png

2 流行的GRN推断技术

GRN推理是一个重要的研究领域,对理解人体的正常运作和疾病病理有着很大的希望。GRN可以揭示疾病机制,并通过突出其与其他基因的调控关系来筛选致病基因。作者们利用DREAM3DREAM4DREAM5基因表达数据集将它们与最先进的技术进行比较。值得注意的是,GNN方法在性能得分方面优于其他方法。以下是主要结论:

1. 卷积算子是GNN的重要组成部分,选择合适的算子可以根据手头的具体任务显著影响结果。在本研究中,两个特定的卷积层ChebConvHypergraphGRN推理中表现出了出色的性能。

2. 通过dropout来消除功能似乎并没有提供显著的好处。这可能是因为GNN已经对噪声和异常值具有鲁棒性。

3. 关于基于DREAM3挑战结果的融合方法,addsum显示了希望。

4. 跳跃式连接的影响取决于所使用的数据集,在DREAM5数据集上,ChebConv观察到相当大的性能提升。跳跃式连接在多层深度网络中最为有效。然而,在浅层网络中,它们对模型性能的影响可能不太显著。

5. 增加层数对HypergraphChebConv模型有积极影响,但对SSGConvClusterGCNChebConv模型有负面影响,可能是由于过度平滑问题和过拟合。 

6. 增加epoch的数量最初可以提高性能,但很快就会达到饱和,这表明可能会出现过拟合。

7. DREAM3大小为50的数据集中,当对各种参数进行平均时,没有一个激活函数始终优于其他激活函数。激活函数的理想选择取决于特定的GNN层和所讨论的数据集的特征。

8. 点积解码器始终优于其他解码器,而基于神经网络的解码器值得进一步研究。

9. 将时间序列信息合并到图形数据中通常会降低GNN的总体性能,这表明需要替代表示。

10. DREAM5中显示出良好的结果,值得注意的是它包含了两个真实的基因表达数据集。

除了这些观察之外,该研究没有探索学习配置参数、批处理规范化、层间设计或各种跳跃式连接变体。未来的研究可以研究这些维度的影响和探索替代解码器变体和图形结构,以更好地表征生物数据。

参考文献

[1] Jereesh A S, Kumar G S. Reconstruction of gene regulatory networks using graph neural networks. Applied Soft Computing, 2024, 163: 111899.

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1453395.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?