||
SimSpace:空间组学数据模拟计算框架
空间组学技术正迅速发展,揭示了组织功能与细胞的空间组织密切相关。空间转录组学等空间组学技术使分子特征在其原生空间背景下的分析成为可能,为组织结构和细胞相互作用提供了前所未有的见解。理解这些空间模式对于许多生物学问题至关重要,包括组织发育、胚胎发生、神经科学和免疫学动态。
许多计算方法和工具已被开发用于分析空间组学数据。数百种方法已被提出,其中许多专注于空间组学数据分析,用于去卷积、空间变量基因检测、空间插补和空间域识别等任务。然而,由于缺乏具有已知真实标签的数据集,评估这些工具仍然具有挑战性。
在这种情况下,计算机模拟提供了一种有前景的解决方案,通过生成逼真的合成空间组学数据集来评估方法性能。目前,许多方法学研究使用其模拟设置过于简单或受到过于特定假设的偏差,导致基准测试结果存在偏差。已设计出几种新兴的模拟工具用于这项任务,这些工具可分为两大类:基于参考和基于非参考(或从头开始)方法。基于参考的方法,包括像 scDesign和 SRTsim这样的模拟工具,始终需要一个空间组学参考数据集来生成相应的组学级别和空间级别模拟,这导致生成的模拟数据集在空间坐标和模式上几乎与参考数据完全相同。这限制了基于参考的工具生成多样化空间模式和细胞类型分布的能力,因为模拟数据集受到参考数据的约束。
相比之下,scCube和 scMultiSim等无参考方法依赖于简化的假设来生成空间特征。例如,scCube 在其无参考模式下采用基本的正态分布来模拟细胞类型的空间分布,这并不能充分捕捉真实组织中观察到的复杂空间组织和异质性。这种方法还缺乏模拟不同组织区域或微环境中的空间异质性和细胞间相互作用的能力,而这些对于真实地表示组织结构至关重要。类似地,scMultiSim 通过在每个时间点模拟一个细胞来利用一个简单的时间序列模型生成空间模式,这可能无法充分反映细胞之间的复杂空间关系。总体而言,这些无参考方法在重现真实组织环境中固有的生物学复杂性和细胞空间邻近性方面存在局限,这对于准确模拟空间组学数据至关重要。此外,这些无参考模拟工具缺乏良好的基准,导致难以系统地评估其性能和生物学真实性。
为应对这些挑战,Zhao等人提出了 SimSpace(https://github.com/TianxiaoNYU/simspace),一个用于生成具有生物学真实性组织的合成空间细胞图谱的全面模拟框架。SimSpace 采用分层建模策略:首先使用马尔可夫随机场方法模拟空间细胞分布,实现精确控制生态位组成、空间邻近性和细胞间相互作用。然后生成相应的组学图谱,包括转录组和蛋白质组数据,以支持下游分析。该框架支持无参考和基于参考的模拟模式,允许用户创建从定义明确的生态位到空间混合环境的不同组织架构,跨越不同分辨率(图 1)。此外,SimSpace 还支持三维模拟,捕捉组织结构的全部复杂性。
图1 SimSpace 框架由两个主要组件组成:空间模式模拟器和组学特征模拟器。SimSpace 支持无参考和基于参考的模拟模式。首先初始化一个 de novo 空间网格,然后模拟空间参数(例如,空间生态位、细胞密度和细胞间相互作用)。这些参数可以选择通过优化空间自相关指标(如 Moran 指数和邻域熵)来拟合参考空间数据集。从单细胞模拟工具生成的模拟组学特征被整合到空间模式中,以产生一个空间组学数据集。生成的数据集支持各种下游应用,包括空间聚类、细胞类型解卷积、空间可变基因检测、空间生态位识别和 3D 空间模拟
作者们系统地使用多种空间统计方法评估了 SimSpace,并将其实际输出与真实数据集进行对比,包括一个 Xenium人类乳腺肿瘤数据集(空间转录组学)和一个 CODEX(也称为 PhenoCycler-Fusion)人类子宫内膜肿瘤数据集(空间蛋白质组学)。这些评估展示了 SimSpace 在基准测试细胞类型解卷积和空间可变基因检测等计算方法方面的实用性。SimSpace 作为一个开源 Python 包实现,具有灵活的参数化和模块化设计,使其适用于广泛的时空组学研究应用。这些特性共同将 SimSpace 定位为一个宝贵的资源,用于生成具有真实性、受真实数据控制的时空数据集,以支持时空组学中的严格基准测试和方法开发。
参考文献
[1] Tianxiao Zhao, Katherine Zhang, Michelle Hollenberg, Wen Zhou, David Fenyö. SimSpace: a comprehensive in-silico spatial omics data simulation framework bioRxiv 2025.07.18.665587; doi: https://doi.org/10.1101/2025.07.18.665587
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-21 03:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社