scConcept实现概念层面的单细胞转录组数据探索
基因表达谱分析已被广泛应用于表征细胞和组织。单细胞RNA测序(scRNA-seq)技术的快速发展使研究人员能够在前所未有的分辨率下解析细胞组成、发育阶段和疾病相关状态。一个典型的scRNA-seq数据集可以表示为一个包含约20000个基因和数千到数百万个细胞的计数矩阵。分析和解释此类数据集是一项复杂的任务,需要生物信息学专业知识。许多技术已经开发并用于降维、细胞聚类、差异表达分析和基因集分析。在标准工作流程中,降维作为关键初始步骤,因为捕获生物学相关变异的准确性直接影响数据可视化和下游分析,如用于细胞类型识别的聚类。后续注释通常基于差异表达分析进行。另一种方法是可解释降维,它明确建模单个基因对低维表示的贡献。通过检查对每个潜在维度有贡献的基因,可以直接解释细胞类型,而无需依赖聚类和差异表达分析。与完全黑盒方法相比,这些方法增强了可解释性,并增加了所得表示的生物学相关性的信心。
经典的降维方法,如主成分分析(PCA)、非负矩阵分解(NMF)和潜在狄利克雷分配(LDA),已被广泛应用于单细胞分析。虽然主成分(PC)缺乏可解释性,但NMF和LDA可以产生可解释的基因子,每个因子都有明确的基因贡献。然而,当应用于日益复杂的单细胞数据集时,这些方法的表达能力不足。另一类方法基于变分自编码器(VAE),如scVI-LD以及神经主题模型,如scETM、SPRUCE、d-scIGM和scE2TM。这些模型结合非线性编码器与线性解码器,以在模型表达能力和可解释性之间取得平衡。后者通过在共享流形上学习主题和基因嵌入,进一步提高了可解释性。尽管如此,这些方法面临两大主要挑战。首先,学习到的主题本质上是基因的集合,其解释通常依赖于下游生物学知识或基因集富集分析。具体来说,单个主题的生物学意义并非由模型明确定义,必须事后手动检查。在几乎每个数据集中,推断出的一些主题往往倾向于富集于大量异构生物学通路,这些通路缺乏特异性,并且通常被忽略于下游分析。其次,即使对于代表有意义通路的话题,许多也往往过于宽泛或冗余。尽管这些主题捕获了低级的基因共表达模式,但它们并未形成一致且定义明确的生物学程序,因此需要大量工作来解释、验证并从中提炼生物学见解。这些局限性限制了主题模型直接支持理解细胞状态和功能的能力。
另一方面,大型语言模型(LLM)已成为数据分析的有前景的工具。LLM基于Transformer架构构建,该架构采用自注意力机制来模拟上下文信息并捕获长距离依赖关系,从而在机器翻译、主题建模和基于知识的问答等任务中取得重大进展。这些LLM可以帮助整合来自大规模语料库的信息,包括生物医学文献,最近的研究进一步证明了它们在生物信息学应用中的潜力,例如用于构建可转移基因嵌入的GenePT和基因集功能解释。基于这些进展,LLM为分析和解释单细胞数据提供了重要机会。然而,直接训练LLM并在大规模scRNA-seq数据上使用LLM进行推理在计算上是昂贵的。
最近,Chen等人提出了scConcept(图1,https://github.com/li-lab-mcgill/scConcept),一个用于单细胞转录组数据概念级自动管理的AI框架。scConcept基于神经主题模型学习高维表达谱中的基因级主题,并采用LLM(例如GPT-5)作为领域专家来管理和将这些主题转化为人类可解释的生物学概念。每个概念被定义为一个结构化实体,包括一个简洁的概念名称、一个自然语言的描述、一个生物学上协调的基因集以及它所派生的源主题集。通过将碎片化和冗余的基因级信号转换为概念级,scConcept显著提高了可解释性。重要的是,这些概念可以通过其相关的基因集定量地映射回单个细胞,从而实现概念级的细胞注释。为了系统地评估scConcept,作者们将其与16个scRNA-seq数据集中的10种最先进单细胞分析方法进行了基准测试,评估了聚类性能和可解释性。scConcept在最强基线的聚类性能上提高了27.1%,在可解释性上提高了50.7%。它捕获了生物学上有意义的基因程序,这些程序更加协调且冗余较少,从而能够更清晰地描述细胞状态。进一步通过一系列案例研究展示了scConcept的优越性。在一个黑色素瘤scRNA-seq数据集中,scConcept生成的概念与注释的细胞类型密切相关,并识别了肿瘤相关程序。基于概念的在计算机中模拟扰动模拟了从恶性细胞到正常细胞的动态转换。识别的概念可以推广到癌症基因组图谱(TCGA)队列,其中概念活性显著与患者生存相关,显示了临床相关性。在层次单细胞数据集中,scConcept将概念细化为子概念,从而能够对细胞层次结构进行可解释的建模。此外,scConcept准确预测了细胞的分化潜能,并通过基于概念的扰动发现了发育状态之间的转换。最后,将scConcept扩展到一个包含950万个细胞的肺癌图谱中,其中识别的概念捕获了肿瘤微环境的关键组成部分。这些概念可以推广到独立的TCGA队列,其中它们的活性与临床结果显著相关。在此基础上,scConcept进一步通过将概念衍生的基因程序与候选治疗靶点联系起来,实现了概念驱动的药物发现。

图1 scConcept 概述。(A) 单细胞数据的主题提取。将神经主题模型应用于 scRNA-seq 数据以学习主题-基因分布。对于每个主题,选择权重最高的前 100 个基因来表征其潜在的生物学信号。(B) 基于 LLM 的概念生成。使用大型语言模型对主题基因集进行提炼,以过滤不连贯的主题并将相关主题合并为连贯的生物学概念。每个概念由一个简洁的名称、自然语言描述和代表性基因集定义。生成的概念根据基因表达映射回单个细胞,建立将基因级程序与细胞级状态联系起来的统一表示。(C) 概念驱动的下游分析。概念级表示支持多种分析,包括基于概念的单细胞注释、概念指导的细胞状态扰动、概念指导的药物发现、发育潜能预测以及层次化概念细化
参考文献
[1] Hegang Chen, Yue Li. scConcept enables concept-level exploration of single-cell transcriptomic data. bioRxiv 2026.04.21.719959; doi: https://doi.org/10.64898/2026.04.21.719959
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1535127.html?mobile=1
收藏