scPANDA:拥有1000万个单细胞图谱的泛血液数据注释器
免疫细胞在人类的生理和病理条件中起着至关重要的作用。单细胞技术的最新进展使研究人员能够以无与伦比的精度观察细胞动力学,以应对bulk测序方法无法解决的细胞异质性挑战。这大大推进了血液学和免疫学的研究。2022年,Xie等人为各种人类血细胞创建了详细的转录组图谱和转录因子谱,建立了基因表达分析和预测血细胞类型和功能的平台。这些资源为进一步的血细胞研究提供了重要参考。然而,准确注释单细胞测序结果和鉴定细胞身份对于分析单细胞RNA测序(scRNA-seq)数据至关重要,特别是在研究血液学和免疫系统中固有的复杂细胞组成时。
近年来,出现了各种各样的细胞注释方法,大致可分为三类。第一种使用基于标记的方法,如CellAssign,其中特定基因标记和分类细胞,确定其细胞类型。第二种方法涉及根据细胞与预定义参考细胞的相似性对细胞进行注释,如SingleR等工具所示。第三类采用机器学习技术进行基于概率的预测,从降维空间中进行无偏特征选择,例如CellTypist等监督分类方法。
虽然这些注释方法已被证明是有效的,但缺乏专门的工具来注释血液系统中的细胞。由于血液系统的复杂性,准确和一致地注释免疫细胞仍然具有挑战性。对于免疫细胞,不同的工具可能会分配不同的层标签,使注释过程复杂化。此外,不同类型的免疫细胞之间存在相似的基因表达谱,这进一步使精确注释变得复杂。因此,迫切需要精确和专门的工具来使用单细胞数据注释血液系统内的免疫细胞。
为了满足这一需求,Li等人开发了泛血液单细胞数据注释器(scPANDA,图1),这是一种注释工具,旨在使用全面的1000万细胞图谱推断血液系统内的细胞类型。这种大规模的scRNA-seq数据是从16项研究中筛选出来的,并使用基于Scanpy和CellHint的生物信息学管道进行处理。该图谱总结了细胞隔室和类的细粒度层,以及高级和低级簇,构成了三层细胞类型注释工具的基础。
图1 构建1000万个血液细胞单细胞图谱的工作流程图
scPANDA与血液图谱一起促进了各个领域的生物学发现。探索图谱中不同簇内细胞的元信息有助于深入了解各种生理和病理状态下的细胞差异。此外,scPANDA的有效性通过多个用例得到了证明,包括对三个外部血液单细胞数据集的验证、scRNA-seq数据中免疫肿瘤共存簇的分析,以及与人类相关的小鼠和猴子中可能保守的细胞簇鉴定。最后,图谱聚类可以作为有价值的参考,用于bulk RNA-seq数据去卷积,如TCGA癌症数据集,以检查其细胞类型组成。
该研究的一个局限性是,scPANDA的准确性和有效性在很大程度上取决于血液图谱的质量和全面性。参考数据中的任何差距或偏差都会影响工具的性能。为了解决这个问题,未来的工作应侧重于不断更新和扩展血液图谱,以包括更广泛的细胞类型,确保更全面的覆盖范围并减少潜在的偏见。此外,scPANDA可能难以识别和准确注释参考图谱中未表示的新型或稀有细胞类型(目前推断为“其他”)。开发更好地处理和预测看不见的细胞类型方法,可能是通过增强的机器学习或深度学习技术,可以缓解这个问题,并提高可扩展性和计算效率。最后,由于难以在一个图中显示所有聚类,结果部分只显示了众多低级聚类中的一部分。可能需要对所有聚类进行进一步分析,以全面了解图谱中的生物学含义。
参考文献
[1] Li CX, Huang C, Chen DS. scPANDA: PAN-Blood Data Annotator with a 10-Million Single-Cell Atlas. Chin Med Sci J. 2025 Apr 1:1-21. English. doi: 10.24920/004472.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1483501.html?mobile=1
收藏