scRDEN:单细胞动态基因等级差异表达网络和鲁棒轨迹推断
单细胞转录组测序技术的快速发展使研究人员能够研究单细胞分辨率的细胞状态过渡和各种生物学过程,并为探索正常发育和疾病的基本机制开放了新领域。它进一步允许研究人员测量单个细胞内的基因表达水平,鉴定复杂细胞种群中的特定细胞类型,分析单个细胞中的异质性,并描述细胞分化过程中的基因表达趋势。这为细胞分化、发育、疾病和其他复杂细胞过程提供了新的见解。已经开发了几种与降维、聚类和伪时间重建有关的计算方法,用于分析scRNA测序数据。基于这些方法,可以在复杂组织中发现新的或罕见的细胞类型并研究细胞分化过程,其中大多数主要集中在基因表达水平的分析上。但是,许多生物过程涉及基因之间的相互作用。研究基因和细胞分化谱系之间的表达网络将极大地揭示细胞的异质性和细胞命运决策的机理。
推断基因调节网络(GRN)是研究单细胞转录组数据的关键问题之一,并开发了多种方法。构建基因调控网络可以帮助确定影响生物学命运的关键因素,例如控制细胞分化和决定疾病进展中的表型因素。通过基因调控网络识别基因之间的关系可以帮助理解不同细胞群体的功能异质性,并查明驱动异质细胞功能的关键基因。scRNA数据的相关网络可以基于相关系数测量基因-基因关联,并且适用于大型和高维数据集。Li使用Pearson系数来得出mRNA和lncRNA之间的相关性,以构建共表达网络以研究肿瘤的发病机理。Ranjan采用Pearson系数来测量基因之间的相关性,以筛选高度可变的基因。Yang揭示了基因共表达网络中不同癌症类型的预后基因的常见系统级特性。还有一些方法可以构建动态网络来分析生物过程的动态变化。Matsumoto等人提出了一种高效的优化算法,可重建表达动力学并从分化细胞中推断GRN。与其他方法不同,Dai等人通过考虑统计独立性为每个细胞提出了一个细胞特异性网络。Zhong开发scGET方法,通过利用细胞特异性网络来检测胚胎分化过程中关键过渡或细胞命运承诺的信号,并确定非差异表达的基因。其他方法基于基因共表达开发卷积神经网络,以更好地推断基因关系。Huynh-Thu等人开发了一种基于树的算法GENIE3,该算法采用了一种独特的推断调控网络方式。在高噪声和高维数据集中某些成熟方法的性能仍有待证实。例如,皮尔逊系数仅测量基因之间的线性关联,并且无法完全区分基因之间的因果关系。尽管现有的单细胞方法可以使用细胞特异性网络来识别分化过程中重要的过渡,但结果的准确性和稳定性可能会受到这些变化的确切时机和高细胞异质性的影响。为了有效地推断基因之间的相互作用关系,还需要考虑有关细胞种群分化顺序的信息以及分化过程中基因对结构的差异变化。
伪时间轨迹推断是单细胞数据分析中的至关重要任务,可以根据单细胞数据来排列单个细胞的顺序,并通过沿着发育轨迹细胞的逐渐趋势来描述时间趋势的描述。近年来,研究人员发明了各种伪时轨迹推理算法,同时开发了一个统一的框架来基准伪时轨迹推理算法。 TSCAN基于细胞簇的质量中心构建最小跨越树(MST),然后渗透细胞的伪时间顺序,从而降低了树空间的复杂性。最初用来重建人骨骼肌成肌细胞的分化轨迹,Monocle具有一个限制,因为它无法预测谱系中的分叉,因此只能分析线性分化系统。在改进的Monocle2中已经解决了这个问题,这是可用的最优势的伪时间推理轨迹算法之一,该算法基于DDRTree算法迭代,确定细胞在低维空间中细胞投影的稳定位置,并代表推断谱系结构。SLICER首先构建细胞之间的K近邻图,然后将初始细胞和最终细胞之间的最短路径识别为伪时空轨迹。最近,研究人员提出了一种基于似然的动力学模型scVelo,该模型可以将RNA速度扩展到具有不同动力学的非稳态系统。此外,它定义了代表细胞内部时钟的基因的共享潜在时间。但是,这些单细胞伪时轨迹推理方法具有明显的缺点。这些方法大多数都严重依赖于细胞群体的准确鉴定。此外,这些方法缺乏鲁棒性和准确性。它们对数据噪声高度敏感,这可能会扭曲许多此类算法中使用的基于距离的计算,并且在处理复杂的生物学过程(例如多级分支和重叠分化路径)方面面临困难。
最近,Zhang等人开发了scRDEN(单细胞基因等级表达网络,图1,https://github.com/Han-zh210/scRDEN),以克服现有方法的局限性。与大多数仅取决于基于细胞特征的现有方法不同,scRDEN构造通过利用基因-基因相关性来构建更稳定的网络。具体而言,通过关注基因对相关性,scRDEN不太容易受到细胞群体错误识别的影响,这使其可以更有效地捕获潜在的生物学调控关系。基于scRDEN的网络构建不仅通过减轻数据噪声的影响增强其稳定性,而且还使其能够更好地处理多分支的复杂生物学过程。这是通过确定关键基因及其驱动不同分化分支的调控关系来实现的。可以使用scRDEN来鉴定细胞亚群,并推断出更复杂的分化过程中不同分化轨迹的基因列表差异表达网络。在五个真实数据集评估scRDEN,并将其性能与现有方法的稳健性和准确性进行比较,从而为单细胞数据分析提供了一种更可靠,更强大的工具。
图1 scRDEN的总体分析包括三个部分。(a)动机。与单细胞数据中单个基因的差异表达相比,基因对的差异表达更稳定,并且在细胞分化过程中具有更强的鲁棒性。(b)scRDEN工作流程。它展示了从单细胞转录矩阵开始的整个过程,并最终实现了聚类分析和轨迹推断。(c)下游分析。它包括对差异表达基因的富集分析以及动态基因等级差异表达网络识别以及分化的不同方向
参考文献
[1] Zhang H, Zhang W, Zheng X, Li Y. scRDEN: single-cell dynamic gene rank differential expression network and robust trajectory inference. Sci Rep. 2025 May 15;15(1):16963. doi: 10.1038/s41598-025-01969-1.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1488794.html?mobile=1
收藏