单细胞转录组数据稳定聚类
尽管基因表达数据聚类的稳定性(或可复制性)已经引起了人们20 多年的兴趣,但对于如何找到单细胞转录组数据的稳定聚类尚未达成共识。使用抽样评估数据变异对聚类影响的早期工作包括 Ben-Hur 等、Dudoit 和 Fridlyand以及 Tibshirani 和 Walther。
在一般设置(即不限于基因表达数据)中,Levine 和 Domany建议对一个数据集进行聚类,然后对多个样本进行聚类,并将每个样本的聚类与完整数据集的聚类(仅限于样本)进行比较。Lange 等提出了一种稳定性度量来量化样品上聚类的可重复性,Hennig讨论了通过使用样本以及用噪声或抖动替换点来评估稳定性。亨尼格观察到,“稳定性强烈依赖于数据集。在同一聚类中,一些集群可能非常稳定,而另一些集群可能非常不稳定。最近,Lun讨论了引导单细胞转录组数据,Peyvandipour 等和 Tang 等研究了单细胞数据的聚类稳定性,目的是识别(新型)细胞类型,Patterson-Cross 等提出了一个框架来评估输入到分析管道的参数对聚类稳定性的影响。
一个简单的问题:如果可用的细胞数量是原来两倍,聚类结果会发生变化吗,如果是,如何变化?虽然这是不可知的,但可以通过颠倒过来解决这个问题:只使用一半的细胞会产生非常不同的结果吗?非正式地:将所有单细胞聚类,然后将单细胞集随机分成两部分,并对每个子集进行聚类。将所有单细胞的聚类限制为每个子集,并将其与仅使用子集找到的聚类进行比较。对多个样品重复上述步骤;如果足够多的样本的一致性良好,则聚类可以暂时被认为是稳定的。
最近,Klebanoff构建了一个管道(https://github.com/victorkleb/scRNA-seq_stable_clust),该管道将 UMI 计数矩阵作为输入,并生成一系列大小(聚类数)的聚类。接下来,为多个细胞样本生成聚类。将样本的聚类与整组单细胞的聚类进行比较,可以得到稳定性估计值。根据 Meil ̆a和 von Luxburg,使用误分类误差距离(MED)比较聚类,冯·卢克斯堡将其称为最小匹配距离。它在样本中的分布表征了聚类的稳定性。此外,每个聚类的错误分类错误率 (CMER)都是用每个样本计算的。它的分布表征了集群的稳定性。
作者考虑了每个单细胞的误分类错误率,但这里不使用。在某些情况下,探索性分析发现了顽固细胞——这些细胞经常被错误分类为不同大小的聚类。在聚类之前,尽管没有找到一种有效的方法来识别这些顽固细胞,但这个想法可能值得进一步研究,即作为识别异常细胞以从下游分析中排除的一种方法。
对于基因表达数据,差异表达可以提供评估稳定性的独立标准。如果所有(或大多数)样本的聚类对之间的基因表达水平一致不同,这可能是聚类稳定的额外证据。比较样本可能会使这种方法免受Zhang等人对相同数据进行聚类和差异表达的批评。这种分析超出了当前讨论的范围,但可能为未来的工作提供框架。
参考文献
[1] Victor Klebanoff. Finding stable clusterings of single-cell RNA-seq data. bioRxiv 2025.09.17.672302; doi: https://doi.org/10.1101/2025.09.17.672302
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1506526.html?mobile=1
收藏