VeloVGI:RNA流速精准估计方法
单细胞RNA测序(scRNA-seq)是单细胞基因组学领域的一项前沿技术,能够在转录组水平上对单个细胞进行分析。然而,该领域的一个重大障碍在于从静态快照捕获动态过程,例如细胞类型转换。了解这些转变对于破译复杂生物学现象,如细胞分化和发育过程中的周期过程至关重要。
许多轨迹推断(trajectory inference,TI)方法已经在方法学层面发展起来。然而,这些方法有一定的局限性,因为它们只描述当前的快照,缺乏对过去和未来状态的预测。为了解决这个问题,最近在利用RNA流速进行轨迹推断方面取得了进展。该方法利用从新生到成熟mRNA剪接的动态变化,建立两者之间的比例关系来描述细胞内的动态趋势。通过关联细胞并反映它们之间的分化关系,RNA流速提供了对过去和未来状态的见解。结果显示,每个细胞都有一个矢量,其中矢量方向和长度分别表示分化方向和强度。简单地说,TI方法依赖于有监督的信息,比如分化初始点,来确定分化总体轨迹。另一方面,RNA流速法可以在不需要监督的情况下,在细胞水平上自主学习分化状态。现有方法大致可以分为两类:基于统计的机器学习方法和深度学习方法。在机器学习类别中,值得注意的方法包括velocyto、scVelo、CellRank和Dynamo。另一方面,在深度学习类别中,有像VeloAE、UnitVelo、DeepVelo、VeloVAE、Pyro-velocity和LatentVelo这样的方法。这些方法共同有助于我们对单细胞动力学的理解,并在表征细胞分化过程中发挥关键作用。
目前单细胞RNA测序(scRNA-seq)分析和细胞图谱研究通常涉及在不同实验条件和位置收集多个样本,旨在揭示更广泛的生物现象。时间序列样本分析对于理解细胞分化是有效的,但它引入了批次效应。当忽略批处理效应时,即使使用批处理校正技术进行预处理,现有RNA流速方法也可能产生容易出错的流速流。这一问题的出现是因为批次集成工具通常处理单个表达矩阵,而RNA流速量化工具为剪接和未剪接的mRNA表达提供单独的矩阵。单独纠正这些矩阵或将它们连接起来会破坏两种mRNA的相对比例,导致不准确结果。因此,迫切需要开发专门针对多批scRNA-seq数据集设计的RNA流速方法。
最近一项研究表明,预处理过程中的邻域构建过程显著影响最终的RNA流速结果。使用传统的k近邻方法,批效应的存在自然会导致同一批中更多的细胞-细胞邻居关系,而不同批次之间的邻居关系更少。为了解决这个问题,最近Huang等人从Waddington-OT方法中获得灵感,计算相邻批次的最优运输映射。此外,采用MNN(互近邻)算法来建立批次间邻居关系。此外,结合了变分自编码器(VAE)在去除批效应方面的有效性。在此概念的基础上,Huang等人引入了VeloVGI(图1),这是一种增强VeloVI编码器组件的方法,在微调的图结构上执行特征提取,以估计所有批次的RNA流速。此外,VeloVGI在模型训练期间结合了采样和聚合策略,以及归纳小批量方法GraphSAGE以减少计算开销。为了验证VeloVGI的有效性,作者们进行了一系列下游分析。在各种数据集的广泛测试结果显示,VeloVGI准确捕获特定局部区域内不同分化模式的能力。
图1 VeloVGI概述。a预处理中多批次网络和采样网络的图构造。b变分图自编码器(VGAE)结构和流速估计。c未采样细胞流速聚集。d多种生物学应用
在本研究中,虽然作者们在批次处理数据集上展示了VeloVGI比现有模型更好的性能,但需要注意的是,深度学习模型固有的复杂性限制了对结果进行深入解释的能力。近年来,深度学习模型的可解释性一直是一个突出的话题,并且仍然是未来发展的焦点。虽然将CBDir和ICVCoh指标修改为BCBDir和BICVCoh,但在批数据集上评估RNA流速指标还需要进一步探索。
此外,VeloVGI的图构建策略在不同条件下(如不同时间点和处理)的适用性值得进一步研究。VeloVGI还期望将这种图构建策略扩展到单细胞多组学数据的集成中,例如在相关的多组学数据中使用加权最近邻或推断RNA流速。
参考文献
[1] Huang Z, Guo X, Qin J, Gao L, Ju F, Zhao C, Yu L. Accurate RNA velocity estimation based on multibatch network reveals complex lineage in batch scRNA-seq data. BMC Biol. 2024 Dec 18;22(1):290. doi: 10.1186/s12915-024-02085-8.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1469187.html?mobile=1
收藏