SpaIM:单细胞空间转录组数据插补
近年来,空间转录组学(ST)技术的进步为深入理解空间细胞生态系统提供了新的视角。基于测序的空间转录组学技术,如 10× Genomics Visium 和 Slide-seq,利用空间索引条形码对组织斑点进行 RNA 测序。与此同时,基于成像的空间转录组学平台,如 NanoString 的 CosMxSMI 和 Vizgen 的 MERSCOPE,采用原位杂交和荧光显微镜技术,在单细胞水平上提供空间转录组学数据。尽管这些技术取得了显著进展,但这些 ST 技术获得的基因表达谱仍存在数据稀疏和基因覆盖范围有限的问题。例如,NanoString 的 CosMxSMI 仅检测数千个基因,每个细胞实际检测到的 mRNA 分子数量仍然较低,由于分子成像和杂交效率的限制,导致基因表达测量效果不佳。这种固有的技术限制限制了基因覆盖的全面性和计数数据的密度,带来了重大挑战。通过计算方法解决这些限制,对于全面捕捉和解读空间转录组学谱至关重要。
在空间转录组学出现之前,单细胞 RNA 测序(scRNA-seq)技术因其能够阐明细胞异质性和追踪细胞谱系而受到关注。尽管提供了这些见解,但 scRNA-seq 缺乏空间信息,这使得确定复杂组织中细胞的结构组织变得具有挑战性。然而,作为 ST 数据的补充,scRNA-seq 已成为提高空间转录组学质量的无价工具,促进了在单个组织切片中对转录组进行具有空间分辨率的精确分析。为了改进空间转录组学图谱,研究人员一直在积极开发无缝集成 scRNA-seq 与 ST 数据的方法。值得注意的方法包括 Tangram、gimVI 和 spaGE。具体而言,Tangram 使用正则化器来筛选与空间数据映射的最优 scRNA-seq 谱。gimVI 采用深度生成模型来集成 scRNA-seq 和 ST 数据,用于缺失基因的插补。spaGE 利用主成分分析来识别主向量,并通过 k 近邻对 scRNA-seq 和 ST 中的细胞进行对齐。近期方法如 stDiff 和 SpatialScope 使用深度生成模型来插补空间基因表达。TISSUE 和 SPRITE 采用不确定性感知和元方法来实现空间基因表达预测。其他方法如 Seurat、SpaOTsc、LIGER 和 stPlus 利用不同的计算策略在 scRNA-seq 和 ST 数据之间实现局部对齐,从而能够预测 ST 数据中未测量的基因表达。 然而,这些现有方法存在固有限制,因为它们主要依赖局部对齐来预测未测量的基因表达,这无法充分发挥 scRNA-seq 和 ST 数据在基因表达预测方面的潜力。
最近,Li等人引入了 SpaIM(图1),即空间转录组学插补,一种利用 scRNA-seq 数据来插补 ST 数据中未测量或缺失基因表达的风格迁移学习框架。风格迁移学习是一种借鉴计算机视觉的技术,它允许 SpaIM 将 scRNA-seq 数据中学习到的模式应用于增强空间转录组学特征。SpaIM 由一个 ST 自动编码器和一个 ST 生成器组成,它们协同工作将 scRNA-seq 数据和 ST 数据解耦为数据无关的内容和数据特定风格。数据无关的内容捕获了 scRNA-seq 和 ST 数据之间的共享信息,而数据特定风格则反映了 scRNA-seq 和 ST 数据之间的内在差异。在特定设计的损失函数训练后,ST 生成器仅使用单细胞 RNA 测序数据,可以独立预测 ST 数据中未测量的基因表达,确保准确插补。SpaIM 作为开源软件在 GitHub 上提供(https://github.com/QSong-github/SpaIM),其详细教程展示了其在增强空间转录组谱效用方面的能力。
图 1 SpaIM 模型概述。SpaIM 包含一个 ST 自动编码器和一个 ST 生成器。ST 自动编码器和 ST 生成器均基于多层递归风格迁移(ReST)层构建
参考文献
[1] Li B, Tang Z, Budhkar A, Liu X, Zhang T, Yang B, Su J, Song Q. SpaIM: single-cell spatial transcriptomics imputation via style transfer. Nat Commun. 2025 Aug 23;16(1):7861. doi: 10.1038/s41467-025-63185-9.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1502637.html?mobile=1
收藏