zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

scEVE:单细胞数据聚类集成算法

已有 239 次阅读 2025-8-2 10:19 |个人分类:科普|系统分类:科普集锦

scEVE:单细胞数据聚类集成算法 

单细胞 RNA 测序(scRNA-seq)是一种用于测量生物样本中单个细胞的转录组(即全局基因表达)的技术。这项技术由 Tang 等人于 2009 年引入,用于捕获单个小鼠囊胚的转录组。自那时起,各种具有增强协议的自动化测序仪不断涌现,并且被社区常规用于在细胞分辨率下研究生物组织。例如,2016 Baron 等人使用 scRNA-seq 描述了人类和小鼠胰腺的细胞组成。第二年,Darmanis 等人使用它来研究人类胶质母细胞瘤。从 2017 年到 2023 年的综述提出了更广泛的 scRNA-seq 技术和其应用概述。值得注意的是,它们还确立了 scRNA-seq 技术作为现代生物学的重要工具。 

简而言之,scRNA-seq 技术生成一个矩阵,报告组织中每个采样细胞的转录组。该矩阵用于研究组织的细胞多样性,被称为 scRNA-seq 数据集。通过对这个数据集进行计算分析,可以回答多个生物学问题。例如,要研究细胞分化,可以进行轨迹推断分析。或者,要研究细胞丰度,最佳实践建议是进行成分分析。尽管这些分析回答了不同的生物学问题,但它们都依赖于相同的先验聚类分析。 

scRNA-seq 聚类分析通过利用相似性。简单来说,就是将相似的细胞聚集在一起。由于其作为 scRNA-seq 分析的基本功能,已经开发出无数种聚类方法。到 2024 1 月,scRNA-tools调查了适用于 scRNA-seq 数据集的超过 375 种聚类方法。值得注意的是,2017年仅报道了 10 种方法。显然,这种方法的蓬勃发展使得新手和专家都难以在 scRNA-seq 领域中进行导航。幸运的是,为了识别最佳可用聚类方法,它们的性能在基准研究中定期进行比较。不幸的是,这些基准研究显示,每种方法的聚类性能受到用户特定选择以及数据特征的影响,而这些特征很少能预先知道,例如细胞群体的规模或类型。 

换句话说,聚类分析的结果取决于所使用的聚类方法。这种聚类方法的性能受特定数据设置的影响,而这些设置在聚类分析之前是未知的。因此,聚类分析的结果总是受到所用方法的偏差影响。 

为了解决这种偏差,已经开发了集成聚类算法(“集成算法”)。简而言之,集成算法生成一组不同的聚类结果,并将它们整合起来输出一个唯一的共识聚类结果。因此,通过利用多种方法(每种方法都对不同的数据设置敏感),集成算法可以有效地解决聚类分析的方法偏差。顺便一提,它们还比单一聚类方法更广泛地利用了数据集。 

2011 年的集成算法综述中,Vega-Pons Ruiz-Schulcloper定义了一种将多个聚类结果整合起来的方法分类学。他们将这些方法称为共识函数,并将其分为两组:(i)基于中位数划分的函数和(ii)基于对象共现的函数。一方面,基于中位数划分的函数输出关于一组输入聚类结果的平均聚类结果。这通常通过优化一个目标函数来实现,该函数量化共识与输入聚类结果之间的相似性。另一方面,基于对象共现的函数量化每对细胞在输入聚类结果中一起被分组的次数,并对这些类似相似性的测量值进行最终聚类分析。直观地看,在这两种情况下,共识函数都试图最小化输入聚类结果之间的差异。 

最近,Asloudj等人探索了一种将多个聚类结果整合起来的替代方法。它们假设一组输入聚类结果之间的差异具有信息量,并提出描述这些差异并利用它们(而不是最小化它们),以识别对所用方法具有鲁棒性的聚类,并防止过度聚类(即识别出虚假的细胞群体)。为了验证这一假设,作者们开发了 scEVE(图1https://github.com/yanisaspic/fEVE),这是一种采用这种新颖理念的集成算法。scEVE 不是基于中位数划分或对象共现的函数,而是使用图论和集成理论的基础知识来识别鲁棒性聚类,并量化其鲁棒性。顺便一提,它有效地解决了单细胞数据科学中尚未解决的两大挑战,即(i)需要在不同分辨率下研究细胞,以及(ii)需要量化结果的不确定性。 

image.png

1 scEVE 算法概述。(A) 基于多种聚类方法生成的基簇及其生物学特征。单细胞计数矩阵经过预处理后输入多种聚类方法以生成基簇。从这些基簇中预测出稳健簇和剩余簇(见 C 图),并进行特征描述。最终识别并返回生物学上不同的簇。这些簇将递归地进一步细分,前提是这样做能提高聚类分析的稳健性。(B) 基簇之间的成对相似性。位于两个基簇 x y交集处的细胞用于量化相似性。如果相似性较强,则将其用于下游识别稳健簇。(C) 基于成对相似性的稳健簇。被多种聚类方法共同分组的细胞形成稳健簇。其稳健性通过利用先前计算的成对相似性(见 B 图)进行量化。只有当稳健性较高时,该簇才会被下游特征描述。其余细胞形成剩余簇,也将被下游特征描述 

为了评估 scEVE 算法,作者们使用 scEVE 对人类胶质母细胞瘤 scRNA-seq 数据集进行深入的聚类分析。这项应用展示了scEVE的概念性优势。此外,将 scEVE 的性能与其所集成的聚类方法以及最先进的 scRNA-seq 集成算法的性能进行了比较。这项比较研究数据包含15 个实验数据集以及高达 1200 个合成数据集。 

参考文献

[1]Asloudj Y, Mougin F, Thébault P. scEVE: a single-cell RNA-seq ensemble clustering algorithm capitalizing on the differences of predictions between multiple clustering methods. NAR Genom Bioinform. 2025 Jun 9;7(2):lqaf073. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 



https://wap.sciencenet.cn/blog-571917-1496181.html

上一篇:QCatch:单细胞测序数据质控评估和分析框架
收藏 IP: 39.128.49.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-8-2 21:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部