zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

CellSTAR:单细胞转录基因组注释的综合资源

已有 923 次阅读 2023-12-20 09:09 |个人分类:科普|系统分类:科普集锦

CellSTAR:单细胞转录基因组注释的综合资源 

随着单细胞RNA测序(scRNA-seq)的快速发展,已经出现了从批量单细胞分辨率的范式转变,突出了细胞异质性的重要性。这种转变导致了广泛的研究努力(在过去的五年里,PubMed上发表了超过16600篇论文)和大规模无注释数据集的激增(1A),这需要准确识别细胞身份(即细胞类型注释) 

细胞类型注释已经成为单细胞研究中下游分析的重要步骤,它依赖于两种类型的注释数据:“参考数据集”(专业注释的单细胞图)标记基因”(在已知细胞类型中特异性表达的基因)。与传统的基于标记的注释相比,基于参考的策略可以充分利用现有的专业注释参考,在识别复杂的细胞成分和破译细胞状态转换方面表现出优越的性能。此外,这两类数据的综合应用在许多研究中都得到了提倡,其准确性、可靠性和一致性在很大程度上取决于数据的全面性和质量(1B) 因此,在当前的单细胞转录组学研究中,迫切需要参考文献和标记物的综合注释数据。 

到目前为止,已经建立了几个与scRNA-seq细胞类型和标记法相关的数据库。其中大部分集中于描述标记基因,如CellMarkerPCMDBCancerSEA等。这些数据库吸引了广泛的兴趣,因为它们弥合了差异表达基因(DEGs)的可用性和向用户提供规范标记之间的差距。但是,这些数据库都没有提供参考数据。换句话说,目前还没有数据库能够提供严格整理的scRNA-seq参考数据,更没有相应细胞标记物的系统整合。总之,构建一个综合参考和标记数据的scRNA-seq细胞类型注释数据库是迫切需要的。 

因此,Zhang等人介绍了一个完整的单细胞转录组标记资源数据库(称为“CellSTAR”)。最新版本的CellSTAR (a)提供了从515个项目和1679批次收集的有价值的潜在注释参考的表达谱,使用14种测序技术,包括18个物种和139个组织的107种注释方法鉴定的889种不同的细胞类型;(b)收集了典型细胞标记,其中包含超过80000个条目,覆盖76%参考数据中鉴定的80%以上的细胞类型;(c)详细描述了与注释相关的实验元数据,这对于揭示实验因素对注释的影响和考虑适当的分析方法是有价值的;(d)提供各种交互式可视化时,能够全面探索复杂分布的细胞和潜在的分子驱动因素。此外,物种、组织、细胞类型和相应的标记分别基于最新版本的TaxonomyUberonCell OntologyEntrez Gene进行了标准化。 

总而言之,CellSTAR的独特之处在于(a)首次为注释数百种细胞类型提供全面的专业注释参考数据,(b)通过合并数万种标记物,使参考数据和标记基因能够集体考虑。鉴于人工智能在单细胞组学方面的快速发展,CellSTAR (https://idrblab.org/cellstar)有望对单细胞转录组学分析产生重大影响,例如细胞异质性、发育生物学、疾病研究和药物发现(1C) 

image.png

1 CellSTAR提供的细胞类型标记的一般工作流程和标记相关的先前数据(相关的参考数据集和标记基因)的特征图。(A)获取未注释数据:从单细胞测序研究中获取大规模未注释数据集需要准确的细胞类型注释。(B)细胞类型注释:与依赖于在已知细胞类型中特异性表达的典型标记基因的传统信息的策略不同,基于参考的注释策略利用专业注释的参考数据集的全面基因表达谱。由于这一特点,它在捕获表达变异性表现出高效率和可重复性以及实现高分辨率方面具有优势。此外,两种标注策略的准确性、可靠性和一致性在很大程度上取决于标注数据的可用性、质量和适用性,这通常需要一个综合的数据库,将精选的参考数据和标记数据集成在一起,以实现丰富的可用性、高质量和互补的适用性。(C)对注释数据的分析:通过对这两种类型的数据进行集体考虑,CellSTAR有望促进对细胞身份的准确和稳健的识别以及各种下游分析,如细胞异质性和动力学研究、疾病研究、药物分析等 

参考文献

[1] Zhang Y, Sun H, Zhang W, Fu T, Huang S, Mou M, Zhang J, Gao J, Ge Y, Yang Q, Zhu F. CellSTAR: a comprehensive resource for single-cell transcriptomic annotation. Nucleic Acids Res. 2023 Oct 19:gkad874. doi: 10.1093/nar/gkad874. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

 

image.png




https://wap.sciencenet.cn/blog-571917-1414581.html

上一篇:患者分层的网络医学:从单层到多组学
下一篇:调控非编码RNA:一切皆有可能,但重要的是什么?
收藏 IP: 112.116.155.*| 热度|

3 杨正瓴 宁利中 孙颉

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 06:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部