||
单细胞组学时代的细胞本体
单细胞组学技术通过实现对单个细胞的高分辨率分析,极大地改变了我们对细胞多样性的理解。然而,这些数据集前所未有的规模和异质性要求建立强大的数据整合和注释框架。细胞本体(CL)已成为实现FAIR(可发现、可访问、可互操作和可重用)数据原则的关键资源,它为经典细胞类型提供了标准化、物种无关的术语,成为众多平台和工具的核心组成部分。最近,Tan等人描述了 CL 在这些平台和工具中的广泛应用,并详细介绍了改进和扩展 CL 内容的工作进展,包括添加转录组定义的类型,并与人类细胞图谱和脑计划细胞图谱网络等主要图谱化工作紧密合作,以支持其需求。还探讨了协调经典和转录组细胞类型定义的挑战、整合标记以及使用大型语言模型(LLM)来提高 CL 工作流程的内容和效率的未来计划。
细胞类型的 FAIR 数据注释
越来越多的单细胞组学技术被用于生成大规模和多样化的单细胞分析数据集。这些技术包括单细胞转录组学、蛋白质组学、蛋白质定位的多重成像、代谢组学、空间分辨转录组学、连接组学、表观遗传分析以及多模态技术。
这些技术产生的海量数据对生物学家、临床医生和生物信息学家构成了重大挑战,他们需要识别和整合相关数据进行分析、生成假设,并在数据集中应用机器学习技术。为了充分利用这些新数据集——生成关于基础生物学和治疗性医疗策略的可检验假设——需要将组学数据与解剖学、组织微环境和生理学背景下对细胞类型的丰富先验知识联系起来。这些先验知识主要以非标准化的自由文本形式出现在研究文献中。因此,将这种知识与可量化的“组学数据集”整合起来是一个挑战。
可查找、可访问、可互操作和可重用(FAIR)数据标注原则可以通过确保数据结构化和一致标注来帮助解决这些问题。使用本体术语进行标注是这些原则的关键组成部分。在单细胞数据的背景下,本体为细胞类型、组织、发育阶段和疾病提供了一致标注的不明确标识符。附加在这些标识符上的参考文本定义确保了其含义本体术语的含义清晰,而附加的名称和同义词支持使用多种常用名称进行搜索。
本体还以生物学上有意义的方式将术语相互关联。因此,本体注释不仅整合了使用相同术语注释的数据,还可以整合使用相关术语注释的数据。这奠定了 基因本体在基因富集分析中广泛应用的基础,它通过将单个基因的具体注释映射到本体中更一般的术语,从而总结基因的功能,例如将'CMG 复合体组装'映射到'滞后链起始'再映射到'DNA 复制'。在细胞本体的背景下,一个查询可能使用本体结构来返回使用'T 细胞'本体术语注释的数据,并包含该术语的许多已知亚型的术语注释。
本体术语之间的关系可以超出单一类型的术语,例如将细胞类型与其解剖位置、特征组分、功能和细胞表面标记等术语相链接(图 1)。这些关系共同构成一个图,可用于支持从数据库搜索到基因集富集再到机器学习的各种应用,并作为知识图谱的骨干。在细胞类型本体论的背景下,这些关系结合引用的文本定义,为细胞类型的经典知识和背景知识提供了链接。这种背景知识不仅对生物学家有用,还可以作为机器学习的输入。
图1 细胞本体中基于属性的嗜碱性粒细胞定义。“经典”定义。面板a 展示了这种基于属性的定义,将细胞本体术语“嗜碱性粒细胞”与功能术语(脱颗粒)、细胞组分(“分泌颗粒”通过父类“粒细胞”链接;面板b中的显微照片显示了嗜碱性粒细胞颗粒,细胞表面和嗜碱性粒细胞流式细胞术常用的细胞表面标志物。面板c仅显示部分属性:CL 还记录了“分叶核”(在 b面板的细胞中可见)和嗜碱性细胞质(b 面板的苏木精染色)以及其他细胞表面标志物。基因本体论包括一个更丰富的关于嗜碱性粒细胞中发生的以及嗜碱性粒细胞参与的过程的图(d 面板)。使用这些 GO 术语注释的基因的表达是支持用术语注释经典细胞类型的潜在证据来源。参与定义经典细胞类型的关键结构和功能的基因的表达缺失是潜在的错误注释证据
细胞本体论
细胞本体(CL),其首个版本于 2004 年发布,是用于 FAIR标注细胞类型数据的基础资源,被学术界及其合作伙伴、政府支持计划以及产业广泛用于驱动生物医学研究中的数据整合和搜索。CL 代表典型的(非病理学/野生型)细胞类型。它涵盖了哺乳动物的细颗粒细胞类型,同时也支持其他后生动物的通用类别(例如肌肉细胞、神经元)。通过映射到模式生物(如非洲爪蟾、斑马鱼和果蝇)的物种特定本体,它促进了互操作性。作为 OBO(开放生物与生物医学本体库)的一部分,CL 遵循标准化的方法来定义关系和分类,并与其他 OBO 本体库紧密集成。CL 也被表型、疾病和性状本体库用来记录疾病和表型的细胞位置,并由基因本体库(GO)用来记录过程和细胞成分的位置。反过来,CL 使用 GO 来捕获细胞类型的功能和细胞类型的特征成分,并使用解剖学本体库 Uberon来记录细胞类型的解剖位置。由于 GO 是基因产物注释的丰富来源,CL 与 GO 之间的链接为映射与细胞类型的转录组和蛋白质组特征相关的基因提供了潜在途径。
CL 中的术语主要基于经典的结构、功能和分子标准进行定义和分类。例如,嗜碱性粒细胞通过双叶核、嗜碱性细胞质、分泌颗粒以及流式细胞术中使用的细胞表面标记来定义(图 1)。因此,使用这些术语注释单细胞转录组数据将数据与经典知识联系起来。为了支持多样化的应用场景,CL 允许多继承分类,其中术语可以有一个以上的父项。例如,气管杯状细胞被归类为杯状细胞和气管上皮细胞,反映了其功能和解剖特征。此类分类利用 OWL 逻辑来自动化错误检查并确保一致性。
标记物与细胞本体
标记物是识别细胞类型的实用工具。它们的实际应用取决于解剖学和实验背景。如果某个基因(或一组基因)的表达能够在某种背景下明确地识别(标记)细胞类型,那么它就是一个有用的标记物。标记物通常是物种特异性的。蛋白质通常被用作细胞类型标记物,但蛋白质水平和转录本水平往往相关性不佳,且蛋白质可能存在而转录本已经降解。在狭窄的解剖学背景下(例如单个脑区)特异性的标记物,在整个大脑的背景下可能并不特异(图 2)。许多经典标记物起源于空间转录组学出现之前的成像背景。在这种情况下,标记物通常需要在单个成像的组织切片或块狭窄的解剖学背景下区分细胞类型,但为了能够标记细胞,阈值需要与背景有显著的表达差异。
图2 标记物的情境性。面板 A 展示了覆盖整个小鼠大脑的 >4m 个细胞的 UMAP 嵌入图,其中标注为 Cajal Retzius (CR)的细胞被突出显示。Lhx1 是一种经典已知的标记物,用于在显微镜下识别CR 细胞。在整体大脑的背景下,它并不具有很强的特异性(面板 B)。然而,在成年小鼠大脑中存活的绝大多数 CR 细胞都存在于海马体中。当我们过滤掉其他脑区的细胞时,Lhx1 成为一种更加特异的标记物
相比之下,单细胞转录组学衍生的标记通常需要在大型多样的组织样本中区分细胞,而推导标记的典型方法——差异表达分析,可以利用相对表达水平,这些水平在传统成像背景下可能过于细微而无法清晰标记细胞。已记录标记的差异也可能来自不同的标记差异表达算法产生不同的标记基因列表。
CL 将基因表达作为定义细胞类型的一个标准——在广泛认为基因表达对细胞类型具有定义性作用的情况下,尤其是在免疫细胞中,细胞类型的定义长期以来一直由用于分离细胞群体的细胞表面标记主导。研究者们也使用标记作为参考转录组数据定义的细胞类型的组成部分。然而,CL 的目标并非成为细胞类型标记的全面来源。标记的高度情境性和多样性意味着存储所有标记会使本体膨胀,并使其难以使用。许多资源使用 CL 术语来记录其在物种和解剖学背景下的标记,包括 HubMap 人类参考图谱、CellMarker和CELLxGENE 表达。SOULCAP 计划(免疫细胞群体识别和语义注释的全球标准化,https://soulcap.org/)是一个由流式细胞术领域的学术和行业研究人员组成的国际联盟,他们正在与 CL 开发者合作,开发一个专家编辑的数据库,用于标记细胞类型关联,主要针对免疫细胞,以及开发生物信息学方法,以标准化流式细胞术结果中的细胞类型识别。
转录组细胞类型
过去十年中单细胞组学技术的快速发展彻底改变了我们研究细胞类型的方式。这些技术首次承诺提供无偏见的细胞身份表征方法,而不依赖于先验知识。进展最快的是单细胞转录组学,它为基于共享转录组特征的细胞分型提供了新方法。这通常涉及选择信息丰富的(高度可变的)基因,进行降维并在潜在空间中进行聚类。以这种方式定义的类型可以映射回基于已知标记表达的经典定义类型,有时结合基因集富集分析,为特定细胞类型的功能/通路提供证据。
足够精细度的簇通常与经典细胞类型很好地对应或对其进行细分。当它们不对应时,一些研究人员合并或拆分簇,以更紧密地匹配经典细胞类型或与其他模态对齐,而另一些研究人员则将转录组类型视为主要类型。后者方法在中央神经系统尤为重要,因为经典的细胞分型只能提供非常有限和不完整的细胞类型图景。除了定义类型,转录组分析还用于根据转录组相似性定义细胞类型的层次结构,包括覆盖整个大脑的转录组层次结构。
最近,Tan等人详细介绍了 CL (https://github.com/obophenotype/cell-ontology)目前如何使细胞类型数据可发现、可互操作和可重用。探讨了CL 如何帮助形成不同数据模态之间的桥梁,以及细胞类型的“组学”视图与经典细胞类型之间的桥梁。还详细阐述了 CL 如何应对新挑战,包括扩展以包含通过链接到参考数据和从参考数据派生的标记集定义的 T 类型。最后,概述了改进的技术和社区协调以及在大语言模型在管理过程中的使用如何推动 CL 内容改进和新的应用机会。
参考文献
[1] Tan S Z K, Puig-Barbe A, Goutte-Gattat D, et al. The Cell Ontology in the age of single-cell omics. arXiv preprint arXiv:2506.10037, doi: https://doi.org/10.48550/arXiv.2506.10037, 2025.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-2 16:15
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社