张俊鹏
单细胞转录组数据稳定聚类
2025-10-19 12:17
阅读:1391

单细胞转录组数据稳定聚类 

尽管基因表达数据聚类的稳定性(或可复制性)已经引起了人们20 多年的兴趣,但对于如何找到单细胞转录组数据的稳定聚类尚未达成共识。使用抽样评估数据变异对聚类影响的早期工作包括 Ben-Hur 等、Dudoit Fridlyand以及 Tibshirani Walther 

在一般设置(即不限于基因表达数据)中,Levine Domany建议对一个数据集进行聚类,然后对多个样本进行聚类,并将每个样本的聚类与完整数据集的聚类(仅限于样本)进行比较。Lange 等提出了一种稳定性度量来量化样品上聚类的可重复性,Hennig讨论了通过使用样本以及用噪声或抖动替换点来评估稳定性。亨尼格观察到,稳定性强烈依赖于数据集。在同一聚类中,一些集群可能非常稳定,而另一些集群可能非常不稳定。最近,Lun讨论了引导单细胞转录组数据,Peyvandipour 等和 Tang 等研究了单细胞数据的聚类稳定性,目的是识别(新型)细胞类型,Patterson-Cross 等提出了一个框架来评估输入到分析管道的参数对聚类稳定性的影响。 

一个简单的问题:如果可用的细胞数量是原来两倍,聚类结果会发生变化吗,如果是,如何变化?虽然这是不可知的,但可以通过颠倒过来解决这个问题:只使用一半的细胞会产生非常不同的结果吗?非正式地:将所有单细胞聚类,然后将单细胞集随机分成两部分,并对每个子集进行聚类。将所有单细胞的聚类限制为每个子集,并将其与仅使用子集找到的聚类进行比较。对多个样品重复上述步骤;如果足够多的样本的一致性良好,则聚类可以暂时被认为是稳定的。 

最近,Klebanoff构建了一个管道(https://github.com/victorkleb/scRNA-seq_stable_clust),该管道将 UMI 计数矩阵作为输入,并生成一系列大小(聚类数)的聚类。接下来,为多个细胞样本生成聚类。将样本的聚类与整组单细胞的聚类进行比较,可以得到稳定性估计值。根据 Meil ̆a von Luxburg,使用误分类误差距离(MED)比较聚类,冯·卢克斯堡将其称为最小匹配距离。它在样本中的分布表征了聚类的稳定性。此外,每个聚类的错误分类错误率 CMER)都是用每个样本计算的。它的分布表征了集群的稳定性。 

作者考虑了每个单细胞的误分类错误率,但这里不使用。在某些情况下,探索性分析发现了顽固细胞——这些细胞经常被错误分类为不同大小的聚类。在聚类之前,尽管没有找到一种有效的方法来识别这些顽固细胞,但这个想法可能值得进一步研究,即作为识别异常细胞以从下游分析中排除的一种方法。 

对于基因表达数据,差异表达可以提供评估稳定性的独立标准。如果所有(或大多数)样本的聚类对之间的基因表达水平一致不同,这可能是聚类稳定的额外证据。比较样本可能会使这种方法免受Zhang等人对相同数据进行聚类和差异表达的批评。这种分析超出了当前讨论的范围,但可能为未来的工作提供框架。 

参考文献

[1] Victor Klebanoff. Finding stable clusterings of single-cell RNA-seq data. bioRxiv 2025.09.17.672302; doi: https://doi.org/10.1101/2025.09.17.672302 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1506526.html?mobile=1

收藏

当前推荐数:2
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?