张俊鹏
Smmit:整合单细胞多组学流程
2025-10-1 08:44
阅读:1413

Smmit:整合单细胞多组学流程 

单细胞多组学测序在同一细胞中测量多种分子特征的多个模态。此类技术的例子包括基因表达和蛋白质丰度的联合分析(例如CITE-seq)以及基因表达和染色质可及性的联合分析(例如10x MultiomeSHARE-seq SNARE-seq)。为了研究和比较神经发育、白血病、皮肤成纤维细胞和其他生物系统中样本的基因表达和基因调控活动,已经生成了多样本单细胞多组学数据集。这些数据集使研究人员能够在不同条件下对细胞的综合功能和特征进行群体水平研究,提供比单一模态或单一样本数据更深入的理解。 

为了有效分析来自多个样本和模式的单细胞测序数据,理想情况下,首先需要在样本和模式之间整合信息,以生成一个降维的单一表示。整合过程协调样本和模式之间的差异,促进下游分析,如细胞聚类、细胞类型识别以及细胞亚群调控行为的表征。为此已开发出几种整合方法。Multigrate使用生成式多视图神经网络从多个模式中学习联合潜在空间,同时考虑每个模式中的技术偏差。scVAEIT使用概率变分自编码器模型来整合并插补多模态数据集。scMoMaT 使用矩阵三因子分解,在马赛克整合场景下整合单细胞多组学数据。MultiVI使用深度生成模型,对多模态数据集进行概率分析和整合。MOFA+使用基于变分推理的统计框架,重建单细胞多模态数据的整合低维表示。totalVI使用深度生成模型,实现 CITE-seq 数据的整合和多方面分析。 

这些方法的主要限制在于其计算效率低下。大多数这些方法依赖于复杂的深度神经网络和统计建模。随着单细胞测序成本不断降低以及数据集规模持续增长,由于完成计算所需的大量时间和内存,这些方法可能会变得计算上不切实际。此外,这些方法通常需要专门的计算资源和高级计算专业知识来实现。例如,基于深度神经网络的方法需要访问 GPU 并熟练掌握 PyTorch 等平台。这些要求阻碍了复杂单细胞多组学数据分析的普及,特别是在缺乏足够计算资源的科研团队中。 

为应对这一挑战,Wan等人开发了 Smmithttps://github.com/zji90/Smmit),一个用于单细胞多样本和多组学整合的计算高效管道。Smmit 是一个两步整合过程,基于现有的整合方法 Harmon, Seurat构建。Harmony Seurat 是广泛使用且成熟的整合方法,以其计算效率著称。因此,Smmit 实施起来非常简单,并受益于这两种方法的计算效率。Smmit 可应用于各种类型的单细胞多组学数据,包括基因表达和蛋白质丰度联合分析的数据集(例如来自 CITE-seq )以及基因表达和染色质可及性联合分析的数据集(例如来自 10x Multiome SHARE-seq)。需要注意的是,虽然这种策略在先前研究中已被用于分析 CITE-seq 数据,但其性能尚未经过严格评估或与其他现有方法进行比较。应用 Smmit 以及其他竞争方法对三个真实单细胞 Multiome CITE-seq 数据集进行了分析。有趣的是,Smmit 采用的简单方法往往能获得比现有方法更好的整合结果。这些发现表明,Smmit 是一种有效、通用且可扩展的方法,适用于整合大规模单细胞多组学数据。 虽然 Smmit 不专注于算法创新,但它将现有工具整合到一个易于使用且高效的统一管道中。通过全面的基准测试,证明 Smmit 在整合多样本单细胞多组学数据方面始终优于现有方法,使其成为实际且有价值的世界真实分析解决方案。 

参考文献

[1] Changxin Wan, Zhicheng Ji. Smmit: A pipeline for integrating multiple single-cell multi-omics samples. Computational and Structural Biotechnology Journal. 2025, 27: 3785-3791, https://doi.org/10.1016/j.csbj.2025.08.020 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1504293.html?mobile=1

收藏

当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?