||
scAMF:单细胞数据聚类分析框架
单细胞RNA测序(scRNA-seq)已经成为基因组研究的重要工具,在剖析单个细胞的基因组、转录组和表观基因组图谱方面提供了前所未有的分辨率。这种详细的视角有助于破译组织内复杂的相互作用和细胞群体的内在多样性。先进的分析方法,包括降维、细胞聚类和可视化技术,可以更深入地了解细胞生长轨迹和基因表达的变化。scRNA-seq为糖尿病、阿尔茨海默病和癌症等疾病的发病机制提供了新的见解。此外,scRNA-seq技术的进步为多组学分析、空间转录组学和人类细胞图谱项目的发展奠定了基础。这些进步不仅提高了细胞分析的深度,而且将这些发现置于组织结构和功能的更广泛背景下。
尽管scRNA-seq在基因组研究中做出了重大贡献,但它面临着显著的挑战,特别是在处理两种类型的噪声:生物噪声和测量误差。生物噪声是细胞固有的,可以来自各种来源。这包括某些基因的过度表达、波动、细胞在其组织或器官环境中的特定位置,以及细胞的当前状态或条件。相比之下,测量误差与测序过程的技术有关。这些误差可能根据所使用的测序技术和平台以及测序过程中应用的具体方法而变化。生物噪声和测量误差的结合为scRNA-seq数据增加了一层复杂性和可变性,使得提取准确和有意义的生物学见解变得具有挑战性。
研究人员已经开发了各种策略来减轻scRNA-seq数据中的噪声和可变性影响。这些策略可以大致分为三类:基因组插值、基于图的方法和深度学习网络。基因组插值主要解决scRNA-seq数据中的缺失事件,例如未能检测到表达的基因。一个值得注意的例子是CIDR,它计算此类缺失事件的概率,并使用概率信息进行插值。其他基因组插值方法,包括MAGIC、SAVER和scImpute,已经开发用于解决缺失事件和其他形式的噪声。每种方法都采用独特的策略,如马尔可夫过程、贝叶斯预测和机器学习技术。基于图的方法,如Seurat,利用主成分分析和图聚类对细胞进行分类。同样,SC3采用基于图的方法,但侧重于一致性聚类。SCANPY根据细胞的相似度构造了细胞的邻域图,然后对该图应用Louvain聚类。深度学习算法,如scDHA和DESC,利用计算模型来表示和分析scRNA-seq数据。scDHA结合了非负核自编码器和贝叶斯自编码器进行聚类。DESC采用堆叠式自编码器进行数据表示,并将其与迭代聚类神经网络相结合。
虽然上述策略为scRNA-seq分析中的噪声问题提供了一些解决方案,但每种策略存在局限性并可能影响其有效性。基因组插值方法依赖于对数据分布和缺失事件的假设,引入了偏差或不准确的风险。基于图的聚类方法涉及降维,可能导致信息丢失,潜在地模糊了对理解生物过程至关重要的关键细胞差异。虽然深度学习算法通常更准确,但它们的决策过程可能缺乏清晰度。此外,深度网络的特殊性可能会限制其对不同数据集的适应性。
流行拟合是一种先进技术,具有处理scRNA-seq数据的潜力。该方法旨在在测量数据的原始空间内重构光滑流形,以最小化信息损失和有效消除噪声的方式捕获数据的低维结构。流行拟合的最新创新为现有方法的局限性提供了解决方案。首先,它在环境空间中运行,没有图聚类中通常与降维相关的信息丢失。 其次,流形拟合适用于不同的数据分布,采用灵活的邻域定义,这比严重依赖特定数据分布假设的插值方法具有明显的优势。最后,该技术具有高度的可解释性,并有全面的理论分析支持。
在这些技术进步的基础上,我们发明了一个名为通过流形拟合的单细胞分析(scAMF)的框架,以解决scRNA-seq数据的持续噪声问题。受到参考文献23最新进展的启发,scAMF被精心设计以适应scRNA-seq数据的分析。与现有的scRNA-seq分析框架相比,scAMF具有几个显著的优势。首先,scAMF显著增强了数据的空间分布,实现了更明显的类内集聚,同时保证了更清晰的类间分离。这种细化对于在后续分析中实现更精确和准确的聚类至关重要。其次,scAMF全面集成了各种数据转换方法和聚类算法。这种协同作用允许在不同的scRNA-seq数据平台上有效地处理聚类和可视化任务,与现有算法相比,显示出卓越的性能。最值得注意的是,scAMF引入了一种创新的自我监督方法来自主确定最佳聚类结果,标志着scRNA-seq分析中自动机器学习迈出了重要一步。考虑到这些进展,scAMF在scRNA-seq分析中成为一种有前途和潜在变革性的工具,为未来的研究设定了基准。
在深入研究细节之前,Yao等人展示了scAMF在Kolodziejczyk数据上聚类的性能。这组小鼠胚胎干细胞包含lif、2i、a2i 3类细胞704个,基因38,658个。Kolodziejczyk数据研究的重点是控制干细胞分化和维持的潜在分子机制。Kolodziejczyk数据中的真实标签代表了小鼠胚胎干细胞的三种培养条件。这些分类由生物学家使用基因标记、细胞形态和细胞位置进行验证。图1显示了原始数据和scAMF处理数据之间的t分布随机邻居嵌入(T-SNE)可视化。当原始数据中属于不同类的数据点纠缠在一起时,scAMF设法分离类,并在每个类中形成不同的聚合模式。这显然表明了更高的聚类精度,突出了scAMF在scRNA-seq分析中的巨大潜力。
图1 使用T-SNE直观说明scAMF在Kolodziejczyk数据上的性能。流形拟合前后的数据点都被简化为二维,并根据真实的细胞类型着色。在流形拟合之后,数据点可以明显地聚集成三个不同的簇,这些簇与真实的细胞类型一致,而不是像拟合过程之前观察到的那样纠缠在一起,没有可识别的簇。k-means对原始数据的聚类精度仅为57%。然而,应用scAMF流形拟合后,精度提高到完美的100%。清晰的分离和准确性的提高明显地突出了scAMF在scRNA-seq分析中的巨大潜力
scAMF深刻地代表了隐藏的低维结构,解决了scRNA-seq数据中固有的技术变异性和生物噪声。严格的实验表明,与现有技术相比,scAMF在恢复扭曲的RNA表达数据和改善聚类方面具有优越的性能。
本项研究使用细胞类型的真实数量作为输入来实现和评估scAMF和其他聚类方法。确定细胞类型的数量是RNA-seq分析中的一个开放性问题。有两种策略可以确定细胞类型的数量。第一种策略利用统计技术,如轮廓系数或邓恩指数,这有时可能会高估真实数字。生物学家应该根据他们的研究需要预先确定细胞类型的数量,选择更多的集群进行详细的探索,或者选择更少的集群进行简化的分析。虽然生物学家提供的计数可能与细胞类型的真实数量略有偏差,但scAMF表现出相当大的灵活性,可以有效地管理高估和低估。例如,即使细胞类型的数量被高估了3个,scAMF对于所有数据集的平均ARI仍然达到了0.66,优于使用真实细胞类型数量的其他方法。
scAMF中使用的流形拟合方法的未来研究方向可以集中在将其应用于其他组学数据,如蛋白质组学和代谢组学,以解决类似的高维和噪声挑战。此外,提高scAMF的计算效率,特别是处理越来越大的数据集,可以通过更有效的算法或并行计算来实现。此外,将scAMF与新兴的空间转录组学数据整合将提供对组织结构和细胞间相互作用的更全面理解,从而实现细胞类型和状态的空间定位。
scAMF框架使用Matlab语言实现,论文中使用的三个数据集及其对应的结果,以及所使用的所有评估函数,可以在https://github.com/zhigang-yao/scAMF获取。
参考文献
[1] Yao Z, Li B, Lu Y, Yau ST. Single-cell analysis via manifold fitting: A framework for RNA clustering and beyond. Proc Natl Acad Sci U S A. 2024;121(37):e2400002121. doi: 10.1073/pnas.2400002121.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-1 09:24
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社