转录组和蛋白质组数据单细胞聚类算法基准测试
单细胞组学测序技术革新了我们在大规模细胞群体中对单个细胞基因或蛋白质表达进行谱系分析的能力,从而实现了更精确的细胞类型分类、更深入地了解发育和分化过程,以及更好地理解疾病发生和进展中的细胞异质性。在各种单细胞组学方法中,单细胞蛋白质组学尤为有价值,因为它量化蛋白质丰度,提供了仅通过转录组分析无法获得的直观且关键的表型信息。特别是,基于抗体的单细胞蛋白质组学是一种成熟且稳健的方法,它利用抗体与目标蛋白的特异性结合来精确量化蛋白质表达,从而揭示细胞异质性和功能多样性。尽管具有这些优势,与转录组数据相比,单细胞蛋白质组数据通常表现出明显不同的数据分布和特征维度,这对在两种组学方法中统一应用聚类技术构成了巨大的挑战。
聚类是单细胞数据分析中的一个基本步骤,用于描绘细胞异质性。在单细胞转录组数据的聚类方法方面,已经取得了显著进展,从经典的基于机器学习和社区检测的算法到现代的深度学习方法。然而,相对较少的研究关注开发专门针对单细胞蛋白质组数据的聚类方法。原则上,转录组和蛋白质组的单细胞数据集都可以表示为高维特征矩阵,这表明许多聚类算法可以应用于这两种模态。尽管如此,该领域现有的基准测试工作大多要么过时,要么主要集中于单一模态,缺乏对聚类性能的全面跨模态评估。
近年来,技术进步使得能够在单个细胞中同时测量多种模态。CITE-seq、ECCITEseq和 Abseq等技术采用寡核苷酸标记的抗体,能够在单个细胞中同时定量 mRNA 和表面蛋白水平,生成配对的转录组学和蛋白质组学数据集。这类配对数据描述了相同细胞微环境和生物机制下的转录组景观和蛋白质组景观,为跨不同模态的聚类方法基准测试提供了理想的基础。
最近研究中,Yin等人对转录组和蛋白质组背景下的单细胞聚类算法进行了全面评估。具体而言,在 10 组配对的单细胞转录组和蛋白质组数据集(图 1)上对 28 种聚类算法进行了基准测试,并根据调整兰德指数(ARI)、归一化互信息(NMI)、聚类准确率(CA)、纯度、峰值内存和运行时间,评估了它们在每种模式下的性能。这项全面的基准测试为选择适用于单细胞转录组和蛋白质组的聚类算法提供了实用的用户指南。
图1 流程和数据。a 基准研究的流程。b 研究使用的数据集。配对的转录组和蛋白质组数据的细胞数量、细胞类型和特征信息
其次,作者们评估了这些方法的鲁棒性,并检查了可能影响其性能的附加因素。具体来说,研究了高变基因(HVG)和细胞类型粒度对聚类性能的影响。通过利用在模拟数据集上,评估了不同噪声水平和数据集大小对聚类结果的影响。最后,采用 7 种特征集成方法融合配对的单细胞转录组和蛋白质组数据,从而将现有的单组学聚类算法扩展到多组学场景。在集成特征空间中进行了高级性能评估,进一步估计了多模态集成对聚类的影响,并为给定多组学场景选择特征集成方法和聚类算法提供了细致的指导。
总体而言,这项研究为单细胞聚类分析做出了深刻贡献,提供了对转录组和蛋白质组数据的详细评估,以及它们整合特征的评估,从而推动了现有单组学聚类算法的扩展到其他单组学或多组学应用。该研究将指导现有方法的改进,以及开发用于日益复杂单细胞研究的全新方法。
参考文献
[1] Yin YH, Wang F, Li W, Liu Q, Zhou S, Zhou M, Jiang Z, Yu DJ, Wang G. Comparative benchmarking of single-cell clustering algorithms for transcriptomic and proteomic data. Genome Biol. 2025 Sep 3;26(1):265. doi: 10.1186/s13059-025-03719-y.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1504294.html?mobile=1
收藏