zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

基因调控网络推理的机器学习方法

已有 292 次阅读 2025-5-12 13:12 |个人分类:科普|系统分类:科普集锦

基因调控网络推理的机器学习方法 

基因表达是遗传信息合成功能产物(如RNA和蛋白质)的过程,在所有生物体中都至关重要。适当调控基因表达对于确保基因仅在必要时被激活以及其活性得到适当控制至关重要。基因表达的调控是通过理解基因和其他分子之间复杂的相互作用来实现的。当前,基因调控网络已经成为一种强有力的工具。 

基因调控网络(GRN)是一个复杂的系统,决定细胞和生物体的发育、分化和功能,以及它们对环境刺激的反应。GRN由基因、转录因子(TF)、microRNA和其他相互作用以控制基因表达的调控分子组成。这些分子之间的调控关系可以形成复杂的网络,表现出涌现特性,如鲁棒性和适应性。简而言之,GRN是一个基因及其调控相互作用的网络,它控制着这些基因对各种细胞线索的表达。值得注意的是,在这个定义中,转录因子被认为是一种特殊的基因,可以调控其他非TFTF基因的表达。网络中的每个基因都充当一个节点,基因之间的调控相互作用由连接这些节点的有向边表示。 

1显示了GRN的一个简单示例。GRN中的相互作用(边缘)既可以是激活的,也可以是抑制的,从而形成复杂的调控回路,进而决定不同细胞状态下基因的表达以及对各种环境刺激的反应。GRN的拓扑结构可能受到多种因素的影响,包括基因复制、突变和选择,从而导致新的调控机制和基因功能的进化。计算和实验方法可用于研究GRN,为细胞信号传导、基因调控和蛋白质相互作用等基本生物过程提供见解。GRN的研究对系统生物学、发育生物学、癌症生物学、进化生物学和个性化医学等许多领域具有重要意义。 

image.png

1 GRN简单例子 

基因调控网络推理或建模是识别有助于调控基因表达的基因之间相互作用的过程。随着时间的推移,由于可用于推断潜在基因调控机制的大量多组学(如基因组学和转录组学)数据的产生和积累,对GRN研究已经从早期的分子生物学发展到当前的计算生物学时代。 

GRN的研究有着丰富的历史,可以追溯到分子生物学的早期,当时研究人员首次开始揭示基因调控的基本原理,例如转录因子在控制基因表达中的作用。在20世纪80年代末和90年代,开发了DNA足迹和电泳迁移率变化分析(EMSA)等技术来鉴定DNA序列中的转录因子结合位点。21世纪初微阵列技术的出现允许对基因表达模式进行大规模研究,这为更先进的GRN建模技术铺平了道路。 

近年来,下一代测序的进步极大地提高了高通量多组学数据的可用性,促进了基因调控网络推理方法的发展。例如,RNA测序(RNA-seq)可以生成高分辨率的基因表达数据,提供比传统微阵列更详细的视图。单细胞测序的出现使研究人员能够在单细胞水平上分析基因表达和染色质可及性,从而揭示细胞异质性和发育通路。此外,改进的表观遗传分析工具,如染色质免疫沉淀测序(ChIP-seq)和转座酶可及染色质测序测定(ATAC-seq),为GRN推断提供了高质量数据。ChIP-seq识别转录因子结合位点,而ATAC-seq揭示染色质可及性模式,这两者对于模拟基因调控至关重要。高通量数据的这些突破扩大了GRN推理方法的范围,使构建更全面、更准确的基因调控模型成为可能。然而,从庞大的多组学数据集中可靠地推断GRN,即揭示潜在的生物调控机制,需要开发复杂的计算方法,特别是基于人工智能的方法,以及严格的基准测试实践。 

DREAM项目的建立是为了鼓励开发专注于GRN推理的算法。这些举措提供了一套基准网络——来自模拟的大肠杆菌和酿酒酵母基因表达数据——以及真实的实验数据集,促进了大规模、社区驱动的算法性能评估。由于这些努力,GRN建模越来越强调机器学习方法,旨在更精确地预测调控网络结构和基因表达动态。这些方法利用高通量数据来识别驱动基因调控的复杂分子相互作用,超越了早期基于聚类的方法,这些方法在捕获重要的转录相互作用方面受到限制。 

几种经典的机器学习算法已被广泛应用于GRN推理,包括贝叶斯网络、结构方程建模、随机森林、支持向量机、梯度提升、逻辑回归和神经网络。最近,深度学习已经成为一种变革性的方法,为模拟表征基因调控的复杂非线性关系提供了强大的工具。虽然多篇综述讨论了GRN推理方法——一些侧重于早期的计算方法,另一些局限于基于转录组学的方法,还有一些讨论了使用染色体结构数据的最新进展——但仍然缺乏一种全面和最新的综合方法,将最近的深度学习技术整合到多种数据模式中。 

最近,Hegde等人在《Machine Learning Methods for Gene Regulatory Network Inference》综述中,通过系统地分类GRN推理的最先进的机器学习方法来填补这一空白,特别强调最新的深度学习模型。与之前的综述不同,作者们不仅根据算法方法对方法进行分类,还考虑了数据源的类型(例如转录组学、表观基因组学、染色质结构)以及它们所支持的GRN推理的具体形式。这个多维框架旨在让研究人员更清楚地了解该领域的当前趋势、新兴挑战和未来机遇。 

参考文献

[1] Hegde A, Nguyen T, Cheng J. Machine Learning Methods for Gene Regulatory Network Inference. arXiv preprint arXiv:2504.12610, 2025. doi: https://doi.org/10.48550/arXiv.2504.12610 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 



https://wap.sciencenet.cn/blog-571917-1485365.html

上一篇:scContrast:基于对比学习的单细胞基因表达数据编码方法
下一篇:单细胞转录组图谱中推断肿瘤微环境生态系统
收藏 IP: 39.128.48.*| 热度|

1 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-5-13 13:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部