||
mcRigor:单细胞数据的元细胞严谨划分
单细胞测序技术通过在多种模式下以前所未有的分辨率揭示细胞异质性,催化了基因组学的范式转变,包括通过单细胞RNA测序(scRNA-seq)的转录组学和通过使用测序的转座酶可及染色质单细胞测定的表观基因组学(scATAC-seq),以及同时测量RNA-seq和ATAC-seq的多组学测定。这些技术大多是高通量和基于液滴的,能够分析数百万个细胞,但由于每个细胞的测序深度较低以及逆转录和扩增步骤的不完善,它们往往受到测序读取计数高度稀疏的影响。
高稀疏性对数据分析提出了重大挑战,常用的缓解策略包括插补和元细胞聚合。插补通过预测缺失的特征表达值来解决稀疏性问题,其中特征表示基因或染色质区域,使用具有相似表达谱的细胞和/或特征。已经为单细胞数据开发了许多插补方法,包括scImpute、SAVER、MAGIC和DCA,以及深度生成模型。插补方法具有保留全套单细胞的优点;然而,它们有时会在下游差异基因表达检测中引起假阳性,并可能出现过度光滑,这会在细胞之间产生人为的接近。作为插补的替代方法,元细胞方法将代表相同细胞状态的细胞分组到一个元细胞中,并使用元细胞的表达谱(通常通过平均单细胞表达谱获得)进行后续分析。元细胞方法有望降低噪声,从而突出稀疏数据集中经常被掩盖的生物信号。元细胞概念不同于伪bulk方法,尽管两者都涉及细胞聚集。具体来说,伪bulk是通过将预定义细胞群(通常是一种细胞类型)中的所有细胞合并到一个单一的轮廓中而创建的,而元细胞聚集了一个更小、更均匀的细胞群,允许在一个细胞类型中有多个元细胞。伪bulk方法降低了数据稀疏性,并允许使用为bulk数据设计的计算方法。然而,通过将一种细胞类型的所有细胞合并到一个伪bulk中,这种方法消除了细胞类型内的所有变异。相比之下,元细胞旨在保留这种变异,保持单细胞数据的分辨率优势,从而进行细胞类型特异性分析。
尽管元细胞概念在单细胞研究中的使用越来越多,例如研究细胞分化状态、表征组织隔室和不同的细胞群、个体化免疫治疗设计的患者分层和细胞转录组的时间分析,但仍然没有严格定义的元细胞概念或普遍接受的构建元细胞的策略。这种缺乏共识可能会导致采用元细胞概念的研究不一致,从而可能导致任意性和次优分析结果。
除了在内部数据分析中将单个细胞划分为元细胞的各种方法外,还为此开发了几种通用方法。最受欢迎的包括MetaCell、MetaCell2、SuperCell和SEACells。MetaCell使用一个k最近邻单元图,使用图重采样和聚类来更新图,最后将元细胞识别为小簇。它还包括检测和排除未合并到任何元细胞中的异常细胞的额外步骤。MetaCell2由与MetaCell相同的作者开发,旨在通过分而治之实现更快的性能。SuperCell将walktrap聚类方法应用于PCA导出的细胞KNN图。SEACells使用核来定义细胞-细胞相似性矩阵,将这些相似性视为原型分析的细胞嵌入,并将得到的原型用于识别元细胞。然而,这些方法可以产生不同的元细胞分区,这也受到它们所使用的超参数的影响。这种缺乏共识的情况使用户不确定使用哪种元细胞分区,以及由此产生的元细胞图谱在多大程度上保留了生物信号。因此,需要一个元细胞的正式定义和评估标准来保证有原则的元细胞聚集,并确保下游分析过程中的无偏性。
为了填补这一空白,Liu等人提出了元细胞的统计定义,并相应地开发了mcRigor(图1,https://github.com/JSB-UCLA/mcRigor),这是一种新的统计方法,可以提高单细胞数据分析中元细胞划分的严谨性。理论上,元细胞被定义为一组同质的单细胞图谱,可以看作是来自同一原始细胞的重采样,元细胞内的任何变化都仅归因于技术测量误差,而不是生物差异。在此定义的基础上,mcRigor可以识别异构且违反此定义的可疑元细胞,同时还可以优化元细胞划分策略以确保可靠的元细胞构建。研究结果表明,mcRigor成功识别并去除了可疑的元细胞,揭示了与COVID相关的适应性免疫反应基因的共同表达,与健康个体相比,该基因在新冠肺炎患者中富集。还证明,mcRigor通过揭示单细胞多组数据中模糊的增强子基因关联或可疑元细胞的存在来增强基因调控分析,同时排除了这些元细胞偏见的虚假关联。此外,mcRigor平衡了数据稀疏性和信号失真之间的权衡,确定了区分生物零和非生物零的最佳元细胞分区,检测了差异表达的基因,并揭示了细胞免疫反应的时间轨迹。
图1 (a)可疑元细胞检测和(b)超参数优化的mcRigor原理图
参考文献
[1] Pan Liu, Jingyi Jessica Li. mcRigor: a statistical method to enhance the rigor of metacell partitioning in single-cell data analysis. bioRxiv, 2024.10.30.621093; doi: https://doi.org/10.1101/2024.10.30.621093
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-7-23 15:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社