张俊鹏
单细胞转录组数据驱动的基因调控网络建模、推理和评估方法调研
2025-6-9 15:14
阅读:384

单细胞转录组数据驱动的基因调控网络建模、推理和评估方法调研 

系统生物学是一个跨学科领域,涉及生物学、化学、数学、物理学等知识,其研究重点是生物系统组成部分之间的相互作用,以及这些相互作用如何在系统内产生行为和功能。此外,细胞网络(基因、蛋白质和代谢调节)涉及数千个分子的协调相互作用,使其成为系统生物学领域研究的核心目标。 

在处理基因时,有必要知道哪些基因被表达,这种表达变化的时刻、在生物体中的位置以及这些表达的强度。通过这种方式,基因表达是一个在不同蛋白质合成水平上受到调控的复杂过程。基因表达随时间变化,取决于该网络中基因的关系。蛋白质和中间核糖核酸(RNA)产物的降解也可以在细胞中受到调控。这种网络被称为基因调控网络(Gene Regulatory networkGRN),它是一种适合研究生物现象的模型,因为所获得的关系可以用来描述和预测分子之间的依赖关系。此外,GRN模型可以提供了解复杂生物网络的见解,例如,允许识别用于治疗疾病(如癌症)的药物。 

已经开发了几种计算方法来推断基因调控网络。这些方法具有不同的数学背景和假设,用于以定量或定性的方式对GRN进行建模。例如,GENIE3使用了一种基于回归树集合的随机森林方法。PIDC基于信息论。其他方法,如PPCORLEAP均基于Pearson相关性。然而,布尔和贝叶斯网络提供了推断网络的定性视图,而基于微分方程组的模型能够提供随时间变化的基因表达水平的预测。 

此外,在选择推理方法时,必须考虑数据排序技术的类型。虽然RNA-seq提供了对基因表达平均行为的洞察,但下一代测序技术,如单细胞RNA测序(scRNA-Seq)提供了单细胞水平的分辨率,具有特定的特征和困难)。与RNA-seq不同,scRNA-seq中许多基因表达水平为零。这种现象被称为dropout,当一个基因在细胞中以低或中等表达水平被观察到,而在同一类型的另一个细胞中没有被检测到时,就会发生这种现象。dropout使得很难区分和正确建模零的来源,这是计算分析的主要挑战之一。此外,生物变异可能会引入错误,例如基因表达的随机性、环境生态位和细胞周期产生的影响。一般来说,GRN推断方法假设基因表达数据已经通过了与测序过程相关的质量测试,例如使用唯一分子标识符(UMI)。其他一些人使用基因表达数据的预处理步骤。 

通过推理算法测量推断GRN的质量也是一个问题。在现实世界中,没有关于ground-truth网络的知识,推理算法用于指导基因表达数据的首次分析。然后,实验人员可以使用这些信息并进行额外的实验。另一方面,建立正确衡量推断的GRN质量的标准非常重要。考虑到这一点,Pratapa等人提出了一组基准问题和一组参考网络中评估方法的框架。使用几个合成和真实模型,以及一个已知的ground-truth网络,可以在推断的GRN的正确性方面对算法进行比较。此外,可以使用通过scRNA-seq实验获得的七个实验数据。然而,对于实验数据,没有ground-truth网络。为了克服这个问题,可以使用文献知识构建的三个参考网络来衡量推断网络的质量。此外,由于缺乏关于ground-truth网络或用于比较的大量参考网络的知识,再加上缺乏进行公平比较的公认指标,因此难以评估推断网络的正确性。 

尽管在推断GRN时试图对不同算法的评估和比较进行标准化,但最近的研究表明,这些方法的表现与随机预测器相似,强调了研究和开发考虑到数据特定特征的技术的必要性。在此背景下,此类网络的推理受到几个技术问题的阻碍,包括用于数据提取/测序的技术类型,这带来了特定的数据处理挑战,以及细胞周期和表达数据的随机性引入的生物变异。另一个值得一提的问题是如何选择用于模拟感兴趣的生物现象的基因子集。在许多情况下,选择技术无法正确组装这些基因。 

最近,da Silva等人在《A survey of the methodological process of modeling, inference, and evaluation of gene regulatory networks using scRNA-Seq data》文中讨论了这些关键点,并回顾了推断基因调控网络的方法过程,强调了从依赖于技术的数据处理到正确选择基因以及度量可以提供的关于推断网络信息的相关问题(图1)。因此,该文为系统生物学研究人员提供了一个一致的方法论过程,主要考虑了基因调控网络中最重要的指标。 

                                           image.png

1 scRNA-seq数据的GRN推理通用流程图。给定一个原始数据集,人们可以用它来选择一个模拟生物现象的基因子集,或者使用整个数据集。根据数据的特殊性对这些数据进行预处理。然后,可以选择推断模型获得GRN 

因此,本文的主要贡献可以概括为:

•分析用于基因子集选择的方法;

•分析正确预处理基因表达数据的重要性;

•讨论推理程序的主要方面;

•对推断的GRN的性能评估进行讨论和分析;

•讨论和分析自动调控在推理和性能评估中的影响;

•使用scRNA-seq数据推断和评估GRN的新方法。 

 

参考文献

[1] da Silva JEH, Bernardino HS, de Oliveira IL, Camata JJ. A survey of the methodological process of modeling, inference, and evaluation of gene regulatory networks using scRNA-Seq data. Biosystems. 2025 May 21:105464. doi: 10.1016/j.biosystems.2025.105464. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1489102.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?