转录组数据大规模基础模型
大规模预训练语言模型代表了近年来自然语言处理(NLP)领域的革命性突破。与自然语言类似,生命科学中的DNA、RNA和蛋白质序列也可以被视为生物语言,从而开发了系列的大规模预训练生物语言模型,如DNA-BERT、RNA-FM和ESM2。与生物序列不同,来自转录组学的基因表达谱编码了生命系统的生物信息,可以作为反映生物体生理状态的功能语言。例如,可以使用疾病相关生物标志物的表达模式来预测患者预后。转录组测序技术大致可分为bulk RNA测序和单细胞RNA测序(scRNA-seq)。Bulk RNA测序测量细胞群中的平均基因表达,从而提供了一个全局但低分辨率的转录活性视图。相比之下,scRNA-seq以单细胞分辨率捕获基因表达,从而能够鉴定细胞异质性和罕见细胞类型。因此,与bulk RNA测序相比,scRNA-seq产生的更大规模的基因表达数据推动了一系列专门针对单细胞转录组数据预训练的基础模型发展,包括Geneformer、scGPT 、scFoundation、GeneCompass和scLong。单细胞大语言模型(scLLM)已证明能够提取高质量的细胞和基因水平的转录组表示,从而在细胞注释、药物反应预测、扰动效应预测和基因模块推断等下游单细胞任务中实现了最先进的性能。尽管scRNA-seq提供单细胞分辨率,但其固有的稀疏性(定义为对每个细胞基因表达的有限检测)给需要全面转录组覆盖的下游任务(如疾病亚型分类和预后建模)带来了困难。相比之下,bulk RNA-seq在样本中提供了更全面、更稳定的基因表达测量,使其非常适合系统或组织水平分析。然而,对bulk转录组数据进行预训练的大规模模型仍然不可用,突显了转录组建模领域的一个关键差距。
鉴于scRNA-seq数据的特点,现有的scLLM模型采用了各种训练策略。Geneformer对每个细胞内的标准化基因表达值进行排名,并经过训练以预测被掩盖基因的排名值。scGPT将基因表达离散化为bin,并预测被掩蔽基因的bin 成员。虽然这些方法有助于减轻数据噪声,但它们降低了表达式建模的分辨率,并可能损害下游任务的性能。为了解决这一局限性,scFoundation和scLong直接预测了被掩盖基因的连续表达值,从而提高了建模分辨率。与众不同的是,GeneCompass采用了一种具有双解码器架构的多任务预训练策略:一个解码器预测掩蔽位置的基因身份,另一个预测相应的表达值。然而,这些模型的编码器输入通常只包括每个样本中表达量最高的几千个基因,而由于技术限制而未能检测到的其余基因被分配了零表达值。尽管这种策略适用于处理scRNA-seq数据的稀疏性,但它阻止了模型学习整个转录组中的整套基因-基因关系。因此,这些scLLM不太适合bulk RNA-seq数据及其相关下游任务。
最近,Kang等人专注于bulk RNA-seq建模,并提出了BulkFomer,这是一个具有约1.5亿个参数的大规模基础模型,涵盖了约20000个蛋白质编码基因。为了实现大规模的预训练,从公共数据库中整理和标准化了大约52万个RNA-seq基因表达谱。为了更有效地模拟bulk RNA-seq数据,开发了一种混合编码器架构,该架构集成了图神经网络(GNN),用于从生物知识图中捕获显式的基因-基因关系,同时利用注意力机制学习整个转录组中的隐式转录依赖性。为了验证BulkFormer的强大功能,作者们对六个关键的下游任务进行了广泛的基准测试,包括转录组缺失填充、疾病注释、预后建模、药物反应预测、化合物扰动预测和基因重要性预测。因此,BulkFormer在所有任务中都优于现有的scLLM。值得注意的是,当应用于临床样本时,BulkFormer 成功重建了缺失的基因表达值,从而发现了一系列以前未被识别的预后生物标志物。这些结果共同确立了BulkFormer是一种功能强大、用途广泛的bulk RNA-seq建模和分析工具。这项工作不仅推动了bulk转录组学基础模型的发展,还为其生物医学应用开辟了新途径。
图1 BulkFormer框架及其应用概述。(a)BulkFormer的预训练阶段采用掩蔽语言建模(MLM)策略,其中每个输入样本中约15%的基因表达值被随机掩蔽。该模型被训练为基于上下文预测掩蔽值,并且使用预测值和真实值之间的均方误差(MSE)损失来优化参数。(b)用于编码基因表达值的旋转表达嵌入(REE)策略的示意图。(c)BulkFormer的模型架构。ESM2用于典型蛋白质产物的基于序列的嵌入,作为单个基因标记的初始表示。每个基因的表达值被视为位置标记,并使用旋转位置嵌入进行编码以捕获连续的表达信息。同时,MLP 模块将全局表达向量压缩为样本级嵌入。这三个表示通过元素求和融合,形成最终的模型输入。BulkFormer的核心由堆叠的块组成,每个块都包含一个图卷积网络层,用于模拟基因-基因关系,然后是K个执行器层,用于捕获长距离相互作用。在N个这样的块之后,输出上下文化的基因嵌入,并通过线性投影层预测基因表达水平。(d)BulkFormer的下游应用包括转录组插补、疾病注释、预后建模、药物反应预测、化合物扰动预测和基因重要性预测
参考文献
[1] Boming Kang, Rui Fan, Meizheng Yi, Chunmei Cui, Qinghua Cui. A large-scale foundation model for bulk transcriptomes. bioRxiv, 2025.06.11.659222; doi: https://doi.org/10.1101/2025.06.11.659222
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1494822.html?mobile=1
收藏