张俊鹏
SCEMENT:大规模单细胞转录组数据整合高效方法
2025-4-4 10:56
阅读:617

SCEMENT:大规模单细胞转录组数据整合高效方法 

已经开发了几种不同的方法,用于整合多个单细胞RNA转录组数据集,目的是消除跨越不同位置、实验室和条件的样品中固有的批处理效应,同时也保留生物学变异。目前可用的单细胞RNA转录组整合方法可以分为三大类:(i)将嵌入输出到诸如PCA的降维空间上的方法,(ii)输出图的方法,如细胞-细胞K近邻图,以及(iii)保留基因水平定量信息的方法,即其输出是包含输入细胞基因表达谱的基因表达矩阵。尽管这些方法在整合各种组织和条件下生成的单细胞数据集方面很有用,但它们的适用性受到它们可以处理的数据规模的限制,因此大规模细胞和复杂单细胞RNA转录组数据集的整合仍然是一个挑战。 

最近对16种不同的有监督和无监督单细胞RNA转录组整合方法的全面调查显示,由于运行时间和内存限制,这些方法都无法成功整合从小鼠大脑数据集的多个样本中收集的97万个细胞。为了提高计算效率和可扩展性,一些为大型数据集成设计的工具执行以下一项或多项操作:(i)在处理流水线的离散步骤处划分数据以解决数据特定的问题,(ii)对细胞的降维空间进行操作,(iii)仅使用数据集/基因的代表性子集(例如参考数据集或一些高度可变的基因),以及(iv)使用未缩放的数据而不是缩放的数据,以避免生成密集矩阵。然而,这样的方法限制了整合数据对于下游处理步骤的适用性,例如对于重建稳健的基因调控和细胞-细胞相互作用网络。因为仅包括基因的子集和/或用于基因-基因和细胞-细胞的数据集,细胞推断导致近似网络可能不适合研究微妙和罕见的相互作用。为了克服基因或细胞数量的限制,同时实现数据大小的可扩展性和足够性能,Chockalingam等人最近提出了一种新的方法,该方法使用基于经验贝叶斯的线性回归模型的稀疏实现来整合来自大量数据集和表达谱的单细胞转录组数据。虽然应用线性回归模型的概念在各种生物学研究领域中得到了很好的建立,包括单细胞研究,新方法SCEMENT(图1https://github.com/AluruLab/scement)结合了多项算法改进,以更快、更有效的方式实现数百万个细胞和数万个基因的大规模转录组数据集成。 

image.png 1 SCEMENT流程图 

作者们证明:通过在所有计算过程中设计稀疏性,即使在涉及输入稀疏矩阵X的数学表达式可能导致中间密集矩阵的情况下,以及通过设计有效的计算顺序,SCEMET优于ComBatFastIntegrationScanorama,运行时间最高快214倍、和内存使用最高可减少17.5倍。仅需22分钟即可完成从121个样本中收集的400万个细胞的批次校正和整合,其中包含超过3.8万个基因。此外,即使细胞因其条件而聚集,SCEMENT不仅在细胞类型之间保持有意义的生物基因表达变异,而且便于单细胞数据的下游处理,以更好地鉴定稀有细胞类型和更稳健地重建具有完整基因表达信息的基因网络。 

参考文献

[1] Chockalingam SP, Aluru M, Aluru S. SCEMENT: scalable and memory efficient integration of large-scale single-cell RNA-sequencing data. Bioinformatics. 2025 Feb 4;41(2):btaf057. doi: 10.1093/bioinformatics/btaf057.     

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1480651.html?mobile=1

收藏

分享到:

当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?